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摘要 

本文以公开发表的论文为线索，试图找出为 GFW 做出主要技术贡献的单位和个人。本文的研究 
成果对于有志于信息安全研究的学生或研究人员选择研究方向或合作伙伴有参考价值。 


Abstract 

This paper tries to expose the contributors to the technology of GFW(Great Firewall, the censorship 
system of China), by analyzing their publications. The result can help security researchers and graduate 
students to choose their collaborators or advisors. 


l 引言 

“防火长城” (GFW) 创造了虚拟世界的最大奇迹(没有之 一；): 它把世界最多的网民关在墙 
里，把世界最优秀的网站档在墙外，象黑客_样用各种欺骗手段窃听、干扰或阻断用户的正 
常通信。与传统防火墙本质区别在于, GFW 不是要保护内部网络，而是把内部网络的用户当 
作敌人加以防范。 

同样也象地下黑客组织 一样, GFW 的开发者和操纵者的身份多数也不为人所知，控制 
策略、程序也不透明，被封的网站和用户也无从申诉。除了自称防火 长城之父的某大学 
校长(自称已经不负责 GFW) — 直享受着总统的殊荣(被扔鞋）以外，其他多数人(包括现任的 
GFW 负责人)都只是在幕后默默耕耘、倍受冷落。 

本文试图找出为防火长城的建设和运行默默奉献的技术英雄:一方面他们本应该分享校 
长的 荣誉; 另 一方面 ，对于某些有志于筑墙的爱国青年学生，希望他们在选择研究方向时找准 
导师，让 GFW 的工作后继有人。因此,可以说本文的动机是中立的，希望英雄们不要跨省来 
查水表。 

2相关工作 

很多网友、国际友人普遍相信维基百科上的说法 [1]: 防火长城是金盾工程的一部分。 
然而,一篇似乎来自 GFW 内部的文章 “GFW 前世今生”[2]给出了防火长城和金盾工程的开 
发史，明确说明 “GFW 与金盾没有关系”，这一说法则更为 可 信:“ 给他们(网民)带来巨大麻 



烦和沮丧的 GFW 竟然是本来应该为网民打黑除恶的国家互联网应急响应中心 ( CNCERT / 
CC )”。“ CNCERT / CC 的应急支撑单位中民营企业最初领跑者是绿盟,后来绿盟因其台谍案 
被罢黜，启明星辰取而代之”。 “ GFW 的科研实力雄厚,国内研究信息安全的顶尖人才和实 
验室有不少在为其服务,比如哈工大信息安全重点实验室、中科院计算所、软件所、高能 
所、国防科大总参三部、安全部9局、北邮、西电、上海交大、北方交大、北京电子科 
技学院、解放军信息工程学院、解放军装甲兵工程学院、信产部中电30所、总参56所等 
等; 另外几乎所有985、211高校都参与此工程”。2010年，北京邮电大学校长方院士在接受 
《人民邮电报》采访时公开接受了“防火长城之父”的头衔。结合方本人公开的履历, [2] 中 
的许多信息可以得到证实。但是，这些研究机构中具体是哪些人在修筑了防火长城，却鲜为 
人知。 


显然，防火长城绝非方校长_人之功，可是只有他在网络上如此受网民爱戴。复旦大学 
有个搞防火墙研究的教授被列入了美国白 宫的一 个请愿的黑名单名单 [3] (呼吁美国禁止 
GFW 参与者入境) ，这一 名单显然没有说服力，因为从发表论文上看，他的研究与防火长城没 
有关联，被网友们莫名其妙地吐 了一脸 口水。2008 年,一 个转自《每日中文网》的博文『4]列 
出了方教授及其合作者的部分文章,给出了““保护”着大家的 gfw 的幕后英雄榜”，但是这个 
名单显然也不够全面。 

本文试图更加全面地挖掘防火长城的技术贡献者，使用的方法主要是依据他们公开发 
表的文章。也许有人问，干这种见不得人的工作,怎么敢发表论文呢？熟悉网络技术的人都 
知道,防火长城使用的技术和正当的网络管理、网络安全（防护)技术并没有什么不同，他们 
的文章通常以网络安全、入侵检测、网络测量等名义出现。另外，研究人员、研究生不发 
表论文是没有办法评职称、拿学位的。还有，他们其实不甘心做幕后英雄，名与利(学术 
大牛的光环、垄断性的项目经费)，他们一样都不能少。 

3研究方法 

各种文献数据库让研究者足不出户就可以查到研究者的论文,甚至可以下载全文。以 
“防火长城之父”的名字查询各大数据库，可以得到方教授署名的大量论文，与防火长城相 
关的论文主要是近十几年的工作。然后用论文合作者的名字依次查询数据库，便可得到更 
多相关论文。 

尽管可以通过 Web 检索这些数据库，但是如果你 用一些 文献管理软件自动查询多个数 
据库可以节省大量时间，而且这种软件可以帮你把作者、出版物名称、卷期等信息自动整 
理好。 



英文文献的检索有些困难,因为不同数据库中姓名格式及缩写 不一样 (比如 “Fang B .”、 
“ BinxingF ”)。 另外用单位查询也有些困难，因为他们在同 一个 时间内可能以不同的单位发 
表论文(吊丝学生找_个单位都很难，他们真是研究者里的高帅富)。 

上述检索工作也可以由程序自动完成，但由于时间所限，本文的工作是利用一颗双核 
人脑 CPU 进行的。下面的阅读、分析工作就必须人工完成了，工作量很大。这些成果是 
GFW 群体十几年的智慧结晶,要想在短期内了解全部内容，那就太侮辱他们了。以下只是浮 
光掠影的分析，没有深入了解其核心技术。 

4结果分析 

4.1 GFW 的技术来源 

从文献作者的单位来看, GFW 的核心技术主要来自于哈尔滨工业大学(哈工大)、中科 
院计算所两个单位，其中中科院的研究人员也大多出自哈工大。 

以方的名字、哈尔滨工业大学为单位查询，可以看到合作者依次 为:胡 铭曾、张宏莉、 
云晓春、季振洲、张宇、张伟哲、张兆心、贺龙涛、吴志刚、汪立东、田志宏等。 

可以很容易地找到哈工大计算机网络与信息安全研究中心的网站 U 。然而，在这个为 
国家的维稳事业做出巨大贡献的实验室主页上，可以查到的信息却很少。 从上级单位计 
算机学院的主页上 1 2 2可以知道方滨兴是这个实验室的负责人(估计是挂名的)，然后是胡铭 
曾、张宏莉等。 

以方的另一单位“国家计算机网络与信息安全管理中心”查询，可以看到 合作者云晓 
春、杨武、李蕾、陈训迅、辛毅、贺龙涛、王佰玲、王东滨等。从网络上可以查到云晓 
春是方滨兴离任安全管理中心之后的接班人(技术负责人，副主任兼总工)。云毕业于哈工 
大，留校四年便从讲师一路晋升到教授、博导3。所以可以基本判断,网络上传启明星辰的 
严望佳接过方校长的枪应该是谣言。 

方还以中科院计算所发过文章，合作者包括郭莉、李洋、程学旗、张永铮、张志斌等 
人,从文章 [5] 看,张永铮应该毕业于哈工大。 


1 http://pact518.hit.edu.cn 

2 http://newcs.hit.edu.cn/taxonomy/term/20 



以方现在单位北京邮电大学检索，合作者有李欲晓(人文学院院长)、王春露，李的文章 
都是些舆情分析之类的非技术文章，而王春露是计算机专业的教授，以她的名字搜索还发现 
清华大学的合作者汪东升、薛_波[6]。 

再以郭莉和中科院计算所检索，可以看到合作者包括谭建龙、刘燕兵、刘萍、李洋等 
人。 

值得注意的是，美国的研究人员(估计是华裔)也可能为防火长城的技术做出过贡献，比 
如 Michigan State 大学的 Alex X . Liu、Virginia Tech 大学的 Danfeng ( Daphne ) Yao 教授。他 
们与云合作的一篇论文 [7] 获得了 ICNP 2012年的最佳论文奖。 

4.2 GFW 涉及的技术分析 

大致浏览了 _下，这些文章大概分成以下 几类： 

首先是入侵检测或流量分类相关的论文，比如字串识别或模式匹配『8, 9, 10]、协议特征 
自动发现[11]、流量分类和协议识别 [12] 等，这些技术可以说是 GFW 技术的核心，从简单的 
字符串匹配到现在 VPN 和加密流量的识别,甚至可以识别和过滤网络不良视频 [13], NND , 太 
咼深了。 

检测到不良信息接下来就是网络管控和阻断技术，比如利用协议欺骗[14]、 DNS 污染 
[15], 路由控制 [16] 等，相比之下，这些论文的水平不高。 

这些检测和阻断设备放在哪里，需要靠网络测量[17]、拓扑发现 [18] 技术,这类研究看似 
与 GFW 没有关系，实际上是不可或缺的。 

论文研究的不只是网络关口的控制，还涉及搜索引擎[19]、 P 2 P 网络污染[20]、社交网 
络分析[21]、舆情控制和引导 [22], 甚至可以自动判断文章是唱赞歌的、还是反革命的 [23] 
[24]。 


有趣的是，还有篇文章研究匿名通信，他们还开发了 一个匿 名通信系统叫 WonGoo [25]。 
Tor 这样的匿名通信工具被封掉了,饿想他们用自己的矛攻自己的盾,一定会不被封掉的。 
可惜，没找到哪里可以下载。 

其他文章很多，分析不过来，读者可以自行研究、 学习： [26-131] 


5讨论 



尽管本文分析得到的列表比现有其他公开的材料更为全 面一些 ，但本文的分析方法有 
明显的局限性论文所涉及的技术研究是中立的，有可能作者（特别是研究生)会抱怨自己 
躺着中枪,他们或许真不知道这些技术将用在何处。但是，那些教授(比如之父、接班人等） 
不太可能不知道。 （2) 论文的成果是否真正应用到 GFW 和相关系统中，也不知道。 

如果论文作者出面澄清自己不知情、或者与 GFW 无关，饿愿意相信他们。饿的确希望 
不 冤枉一 个坏人，也不要漏 掉一个 好人。另外本文的结果也决不是完备的，没有分析专利等 
其他文献和资料。 

总之,本文的研究不全面、不深入，有待于其他研究者进一步补充、修正,特别是有待这 
些文献作者们出面澄清，他们的现身说法才是最有说服力的。 


6结论 

本文以公认的 GFW 之父及其合作者公开发表的论文为线索，找出了主要研究机构和研 
究人员。希望本文的分析结果对于信息安全的研究生选择研究方向有参考价值，也为美国 
大学教授选择中国的合作伙伴提 供一些 信息。 
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□ Abstractf] With increasing security problems of information technology, developers of information security products seek for the trusted security 
assessment by the third part. But there are some defects in present assessment methods for host software systems. This paper proposes a quantitative 
risk assessment approach for host system security, combining with the vulnerability information in software system. An assessment instance is given 
to analyze the assessment algorithm. Finally, this paper illuminates the advantages of this assessment approach. 

□ Key wordsQ Network security; Risk assessment; Quantitative assessment approach; Evaluation policy 
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Research and Implementation of High-Speed Packet Processing in Gigabit Network IPS 
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AbstractDThe Gigabit Network IPS Intrusion Prevention SystemDis strongly required with the popularization of Gigabit Ethernet and 
the complication of network intrusion behavior. The key technologies of Gigabit Network IPS are introduced in this papeiQ and a new 
total solution of Gigabit Network IPS is addressed 口 then the detailed design and implementation of a hardware platform for high-speed 
packet processing is presented! and its work flow is analyzed^ finallyD the test performance of the system and its performance evaluation 
is also provided. 
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□ □□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□.□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □ □ . SW5000 NCP □□□□□□□□□□□□□□□□□ 
H Package EngineQH □ □□ Stream Switch □口 □□□□□□ 

□ Content EngineD. □□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□.□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□ SPI-3 

□ □：□□□□ 5Gbps. SW5000 NCP □□□□□□ 2D000D 
000 □ TCP □□□□□□□□□□ 300Q000 □ TCP □ □. 
SW5000 NCP □□□□□□□□ TCP □□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□.□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□ SW5000 NCP □ □ □ 
DDRD □□.□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□ 

□ SW5000 □□□□□□□□□ 

□ □□□□□□□□□□□□□□□• 

4.2 □□□□□□ 

4.2.1 □□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□.□□ 

□ □□□□□□□□□□□□□□□ 1000BASE-T □ □ □ □ 

□ PHYDD □□□□□□ 

□ MACDD □□□□□□□□□□□□. 1000BASE-T □ □ □ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□ 
□ •□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□ GMIIDDD □□□□□□ lGbps. 
GMII □□□□□□□□ 125Mhz □□□□ $]10D □ □ □ □ 

□ □□□□□□□□□□□□□ PHY □□□□□□ MAC □ 

□ •□□□□□□□□□□□□□□□□□ SW5000 NCP. 
SW5000 NCP □ MAC □□□□□□ SPI-3 □ □ □ □ □ 
SW5000 NCP □□□□□□□□□□ 5Gbps □口 □ □ □ □ □ 
lGbpsD D D • 

SW5000 NCP □□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□ 
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□ □ □ □ □ 2. 5Gbps. □□□□□□□□□□□□□□□□ 

□ □□.□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□. 

4.2.2 □□□□□□□□□□□ 

SW5000 NCP □□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□ DDRD 

□ □□□□□□□□□□□□□□□□□.□□□□□□□ 

□ □□□□□ DDRD □ □ □ □. 

□ □□□□□□□□□ SRAMI PBSRAMQpipeline burst 
SRAMITI n ITI n n n n 64 □ □□ G □ 200MHz. Freescale 口 

□ □ MPC7450 □ □ □ □ □ D d 6[] D □ □ L3 Cache □ □ □ □ □ 

□ □□•□□□□□□□□□□ MPC7450 □□□□□□□□ 

□ □ □ □ MPC7457DD □ □ □ □ 1. 3GHz. MPC7457 □ □ □ 

□ □ L3 Cache □□□□□□ SRAM □□□□□□ L3 Cache 

□ □ □ □ □ RAM . SW5000 NCP □ MPC7457 □ □ □□ 
MPC7457 □□□□□□□□□□□□□ SRAM 
MPC7457 □□□□□□□□□□□ SW5000 NCP □ □ □ □. 

DDRD □□□□□□□□□ DDR □□□.□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□•□□□□□□□□□□□□□□□□□ 
□ 128 □ □□ □ □ 
133MHz. □ □□□□□□□□□□ 4.256GfflsD □□□□.□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □ □ □ • 

SW5000 NCP □□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□.□□□□□□□□ 

4.2.3 □□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□•□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□.□ 3D □□□□□□□ 

□ □ • 


MPU 




系储 ¥ 


㈡ 
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IS 

1 

系 

统 
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制 

器 

设备接口 

mmmm 


圆 




mi 



M Flach 1 


|C=^ RJ4S 1 


㈡ 


温度 

监控器 


□3 □□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□ Q1 2 CU □□□□□□□□□□□□□.□ 

□□□□□□□□□□□□□□□□□□□□□□□□.□ 

□ PCD 


□ □□□□□□□□□□□□□□□ PCD □□□□□□□ □ 

□ □□□□□□□□□□□□□□□□□□□□□□□□•□ 

□ □□□□□□□□□□□□□□□□ EEPROM □ Flash 

□ Flash □ □ 

□ □ Flash □ □□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□ • Flash □ □□□□□□□□□□ 

□ □ □ Boot Loader DDDDDCDDDDDDDDDDDD 

□ □□□□□□□□□□ Flash □ □□□□□□□□ Flash □ 

□ □□□□□ Flash □□□□□□□ Boot Loader D D 

□ □□：□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□ JTAGD □ □ □ 

□ □ □ □ Flash □ □□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□•□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□.□□□□□□□□ 
□ □□□□□□□□□□□□□□□•□□□□□□□□□□ 

□ •□□□□□□□□□□□□□□□□□□□：□□□□□ 

□ □□[□□□□□□□□□□□□□□□•□□□□□DO 

I2 C D □□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□.□□ DDDRD □ □ □ SPDD □ □ 

□ □ □ □ □ I2 C D □□□□□□□□□□□□□□□□□□ 

□ • 

4.2.4 □□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□ 
□ •□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□.□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□ 

□ VHDL □ □ □ □ 

□ □□□□□□□□□□□□□□□□• 

5 □□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□•□□□□□□□□□□□□□□□□ 

□ □：□□□□□□□□□□□□□□□□□□□□ DTCPD 

□ □□•□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ m □ □ SW5000 NCP. SW5000 NCP □□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ •□□□□□□□□□□□□□□ -SW5000 NCPD □ □ □ 

□ □ □□□□□□□□□□□ SW5000 NCPD □ □ □ IP 

□ □□□□□ TCPD □□□□□□□□□□□□□□□□□ 

□ □□□□□□□ IDDD □ □ □ SW5000 NCP □ □ □ DDR 

□ □□□.□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□ Syn □□□□□□□□□□ SW5000 NCP □ □ □ 

□ □□□□□□□□□□ TCPD □□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□ 
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□ □□□□□□□□□□□□□□□□□□ IDD □ □ 
SW5000 NCP[]] □ SW5000 NCP □□□□□ ID □ □ □ □ □ 

□ □□□□：□□□□□□□□□□□□□□□□. 

6 □□□□ 

□ □□□□□□□□□□□□□□□□□□□ BSPD □ 

□ □□□□□[□□□□□□□□□□□□□□□□□□a. 

□ □□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□ IXIA400TD □ □ □□□ □□□□[□□□ 

□ IxExplorer. IXIA 400T □□□□□□□□□□□□□□□ 

□ □□□□□. 



□ 4 □ □ □ □ □ 

ixiad □□□□□□□□□□□□□□□□□□□□ 

□ □□□□. IXIAD □ □ lGbps □ TCP □□□□□□□□□ 

□ □□□□□□□□□□□□□□□ IXIA. IXIA □ □ □ □ □ 

□ 0 D4 口口 

□ □□□□□□ 200 □□□□□□□□□□□□□□□□□ 

□ 4D □ □ □ IXIAD □□□□□□ IP □□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□. 

□ □ 4DDDDD □□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□ 128Byte □□□□□□□ 

□ □ 100%D □ □. 

7 □ □ 

□ □□□□□□□□□□□□□□□□□□□□□□ 

□ [□□□□□□□□□□□□□□□□□□□□□□.DO 

□ □□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□mo 

□ □□□□□□□□□□.□□□□□□□□□[□□□□a 

□□□□□□□□□□□□□□□□□□. 
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Abstract _Extracting the protocol message format specifica¬ 
tions of unknown applications from network traces is important 
for a variety of applications such as application protocol parsing, 
vulnerability discovery, and system integration. In this paper, we 
propose ProDecoder, a network trace based protocol message 
format inference system that exploits the semantics of protocol 
messages without the executable code of application protocols. 
ProDecoder is based on the key insight that the n-grams of 
protocol traces exhibit highly skewed frequency distribution that 
can be leveraged for accurate protocol message format inference. 
In ProDecoder, we first discover the latent relationship among 
n-grams by first grouping protocol messages with the same 
semantics and then inferring message formats by keyword based 
clustering and cluster sequence alignment. We implemented and 
evaluated ProDecoder to infer message format specifications of 
SMB (a binary protocol) and SMTP (a textual protocol). Our 
experimental results show that ProDecoder accurately parses and 
infers SMB protocol with 100% precision and recall. For SMTP, 
ProDecoder achieves approximately 95% precision and recall. 

I. Introduction 

A. Motivation and Problem Statement 

This paper concerns the automatic inference of protocol 
message format specifications from the network traces of 
unknown application protocols. This has many applications 
in networking and security. For instance, application protocol 
parsing requires protocol inference. Application protocol pars¬ 
ing, the translation of raw packet flows into higher level flows 
of semantic content, has a wide variety of current and future 
networking and security services such as semantics aware 
Intrusion Detection and Prevention Systems (IDSes/IPSes), 
network monitoring, network measurement, application-aware 
load balancing, application fingerprinting, tunnel detection, 
Quality-of-Service (QoS), and content-aware caching and rout¬ 
ing. Take its application in IDSes/IPSes as an example. Tradi¬ 
tional IDSes/IPSes treat packet payload as a sequence of bytes 
and match it against malware signatures represented as a set of 
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regular expressions. This coarse grained signature checking is 
fundamentally limited due to its ignorance of the application 
protocol structure in the packet payload. Modern IDSes/IPSes 
become semantics aware by parsing packet payloads to get 
the value for each application protocol field based on appli¬ 
cation protocol message formats. Several application protocol 
parsers, such as FlowSifter [25], UltraPAC [20], binpac [28], 
and GAPA [4], have been proposed in prior literature. 

All these application protocol parsers require protocol speci¬ 
fications in order to generate parsers for the corresponding pro¬ 
tocol. However, many application protocols on the Internet are 
proprietary and have no publicly released specifications. Ac¬ 
cording to the Internet2 NetFlow weekly reports on backbone 
traffic, more than 40% of Internet traffic belongs to unidenti¬ 
fied application protocols [27]. Communication protocols used 
by malware and botnets do not have protocol specifications 
from their designers. To parse a flow of unknown application 
protocols, we first need to conduct protocol inference to get 
the protocol message format. Network monitoring tools such 
as Ethereal [1], NetDude [19], SNORT [31], and BRO [30] 
also require application protocol parsers to implement their 
functionalities. 

Besides application protocol parsing, protocol inference 
is useful for many other applications such as vulnerability 
discovery and system integration. For vulnerability discovery, 
to detect vulnerability in a deployed application, people often 
perform penetration testing, which requires protocol specifi¬ 
cation for that application. For system integration, to develop 
applications that can work with proprietary protocols that have 
no publicly known specifications, protocol inference is needed 
to decode such protocols. For example, to develop an open 
source client program that works with the proprietary Yahoo 
Messenger protocol, one needs to first use protocol inference 
to decode the message format of this protocol. Furthermore, 
even for some application protocols with known specifications, 
protocol inference is also needed sometimes for identifying 


implementation bugs and for identifying implementation de¬ 
tails that are not unambiguously specified. 

Inferring protocol specification from executable code is 
extremely difficult. First, the executable code of these unidenti¬ 
fied protocols, such as botnet command and control protocols, 
are often not available for reverse engineering. Second, even 
when such executable code is available, the reverse engineer¬ 
ing process is labor intensive and error prone. For example, 
manually reverse engineering the Microsoft Server Message 
Block (SMB) protocol took 12 years in the open source 
SAMBA project [34]. 

For the protocol inference problem addressed in this paper, 
the input is a network trace of the target application protocol. 
Note that an application protocol typically have multiple types 
of messages where each message type has its own format. If 
the executable code of an application protocol is available, it 
can be run in a controlled environment to gather packet traces. 
Else, prior traffic classification schemes (such as [16]) can be 
used to separate network traffic of the target protocol from that 
of others. As traffic classification schemes often do not have a 
100% accuracy, we do not assume that the input network trace 
contains only the packets of the target application protocol. 
The output of protocol inference are protocol message formats 
represented by regular expressions. 

B. Limitation of Prior Art 

Prior protocol message format inference methods fall into 
two categories: reverse engineering based methods [5]-[8], 
[21], [34], which infer protocol message format by reverse 
engineering the executable code of protocols, and network 
trace based methods [10], which infer protocol message format 
by analyzing network traces that contain the messages of 
a given protocol. Reverse engineering based methods are 
only applicable to protocols for which the executable code 
is available; however, the executable code of many unknown 
protocols are typically not available for reverse engineering. 

The only prior network trace based application protocol 
message format inference method is Discoverer proposed 
by Cui et al. [10]. Discoverer first reassembles IP packets 
into application protocol messages; second, breaks up each 
message into a sequence of tokens based on a set of predefined 
delimiters such as space and tab; third, classifies messages into 
various clusters based on each message’s token pattern; and 
finally merges similar message formats. Discoverer has three 
major limitations. First, Discoverer does not work for asyn¬ 
chronous application protocols. Furthermore, even for syn¬ 
chronous application protocols, it does not work with sampled 
network traces. This is because it requires assembling packets 
into application protocol messages. Discoverer treats each 
maximum sequence of consecutive packets as an application 
protocol message. This way of grouping packets into messages 
is inappropriate for asynchronous protocols because two end 
hosts may send packets to each other at the same time. Second, 
Discoverer assumes that the first constant number of bytes of a 
flow describe the complete structure of an application protocol. 
However, this assumption often does not hold in reality. For 


example, the Simple Mail Transfer Protocol (SMTP) indicates 
the end of the mail data by sending a line containing only a 
where is an element of the message format and the email 
message can be of any length. Third, Discoverer assumes the 
existence of some delimiters for separating different fields in 
protocols. However, unknown protocols may not use delimiters 
and even if they use delimiters, such delimiters may not 
available to the public. 

C. Proposed Approach 

In this paper, we propose ProDecoder, a semantics aware ap¬ 
proach that takes network traces as the input and automatically 
outputs the inferred protocol message format. ProDecoder 
does not assume prior knowledge of protocol specifications 
such as delimiters. It is applicable to both text and binary 
protocols. Our approach is based on the key insight that the 
n-grams of protocol traces exhibit highly skewed frequency 
distribution that can be leveraged for accurate protocol mes¬ 
sage format inference. ProDecoder has four major modules: n- 
gram generation, keyword identification, message clustering, 
and sequence alignment. We give an overview of each module 
below. 

1) n-gram Generation: The input to this module is a set 
of packet traces that are of the same protocol. The process of 
classifying raw network traffic into flows of different protocols 
is called flow classification. The simplest flow classification 
method is to classify flows based on the transport layer port 
numbers. Of course, this simple method may misclassify traffic 
carried by tunnels. There are more advanced flow classification 
methods that have been proposed in prior literature [16], [18], 
[29]. The output of this module is protocol messages where 
each message is represented as a sequence of n-grams. An 
n-gram is a subsequence of n elements contained in a given 
sequence of at least n elements. For example, treating each 
character as an element, the 3-grams generated from message 
MAIL FROM are MAI, AIL, IL_, L_F _FR, FRO and ROM. 
Given many packets of the same protocol, ProDecoder first 
decomposes each message, denoted as a sequence of m bytes 
bib <2 ••• b m , into a sequence of m — n + 1 n-grams (n < m): 

blb 2 ...bn ，6263 - - - 6 n +i, • • . ， &rn-n+l^m-n+2 ' " • b m . 

2) Keyword Identification: This module uses a genera¬ 
tive model from natural language processing to infer pro¬ 
tocol keywords, which are used to define protocol message 
formats. We identify a protocol keyword as a set of n- 
grams that mostly show up together in protocol messages. 
For example, the set of 3-grams {MAI, AIL, IL_, L—F, 
—FR, FRO, ROM} can be a keyword because MAIL FROM 
often show up together in SMTP messages. A message can 
have multiple keywords. For example, an SMTP message 
MAIL FROM: <alice@gmail.com> (RCPT TO: <bo 
b@live. cn>) + DATA have three keywords that corre¬ 
sponds to MAIL FROM, RCPT TO, and DATA. 

3) Message Clustering: This module clusters messages 
based on their keywords using machine learning techniques. 
Using the keywords associated with each message as features, 
we use the Information Bottleneck (IB) clustering algorithm to 


group similar messages into a cluster based on their semantics 
[33]. This module enables ProDecoder to distinguish among 
similar keywords belonging to different protocol messages. 

4) Sequence Alignment: For the messages in each cluster, 
this module uses a well-known sequence alignment algorithm 
to find the common byte sequences among them. For example, 
given a set of SMTP messages, sequence alignment algorithms 
can identify MAIL FROM as a common byte sequence. These 
common byte sequences represent the stable part of protocol 
messages and therefore can be used to represent the message 
format of the protocol in the form of regular expressions. 

D. Novelty and Advantages of Our Approach 

The key novelty of ProDecoder lies in its exploitation of the 
semantic information in protocol messages. It distinguishes the 
different meanings of the same n-grams in different messages, 
which may have different semantics and therefore should 
be classified into different keywords. Consider the example 
SMTP message in Figure 1, where the 3-gram “250” repre¬ 
sents different semantic meanings for different occurrences. 
In this example, we use numbers from 1 to 8 to indicate the 
order of the 8 messages, letter “S” to indicate the message 
from the email sender, and letter “R” to indicate the message 
from the email receiver. However, prior network trace based 
protocol message format inference methods cannot make such 
distinctions as they rely on counting the occurrences of strings, 
ignoring the context of each string. Furthermore, ProDecoder 
discovers the correlation among n-grams. In protocol mes¬ 
sages, multiple n-grams together may form an element in the 
protocol message format. For example, in an SMTP message, 
the 3-grams, “250” and “_OK” together, denote a protocol 
element that is used to confirm the mail transaction. Using 
keyword identification, our approach can group correlated n- 
grams together to form a keyword. Keyword identification 
in ProDecoder is inspired from natural language processing 
literature, where a major research issue is to identify topics 
from a corpus of documents consisting of a vector of words. 

1 S: MAIL FROM:<alice@USC-ISIE.ARPA:JQP6MIT-AI.ARPA> 

2 R: 250 OK 

3 S: RCPT TO:<joe@BBN-VAX.ARPA> 

4 R: 250 OK 

5 S: DATA 

6 R: 354 Start mail input; end with <CRLF>.<CRLF> 

7 S: Received: from MIT-AI.ARPA by USC-ISIE.ARPA ; 

2 Nov 81 22:40:10 UT 
Date : 2 Nov 81 22:33:44 

From: John Q. Public <JQP@MIT-AI.ARPA> 

Subject : The Next Meeting of the Board 
To: Jones@BBN-Vax.ARPA 

8 R: 250 OK 

Fig. 1. An example SMTP communication session 

ProDecoder addresses the aforementioned three limitations 
of Discoverer. First, ProDecoder works with asynchronous 
application protocols and sampled network traces because it 
does not assemble IP packets into application-level messages. 
Second, ProDecoder does not assume that the first constant 
number of bytes of a flow describe the complete structure of 


an application protocol. Third, ProDecoder does not assume 
the existence of delimiters for separating different fields in 
protocols. 

The rest of the paper proceeds as follows. In Section II, 
we review related work. We provide the technical details of 
ProDecoder in Section III. We present implementation details 
and experimental results for ProDecoder in Section IV. Finally, 
we conclude the paper in Section V. 

II. Related Work 

A. Reverse Engineering Based Methods 

Such methods infer protocol message format by reverse 
engineering the executable code of protocols. Accurately re¬ 
verse engineering protocols typically involves manual efforts, 
as described in [7] and [34]. There are several proposals about 
automating this process. Lim et al. proposed a method that au¬ 
tomatically extracts the format from files and application data 
output functions, which may not be available [21]. Caballero 
et al. proposed a protocol reverse engineering method called 
Polyglot that uses dynamic analysis of program binaries [5]. 
The methods proposed in [8] and [6] infer protocol message 
formats by observing the dynamic execution of protocols. Lin 
et al. [22] and Wondracek et al. [36] proposed tools to reverse 
engineer network message formats based on observing how 
a program processes protocol messages. Cui et al. proposed 
Tupni, a protocol reverse engineering method for automatically 
identifying record sequences and record types in input formats 
[11]. In contrast to these methods, our approach does not 
require the binary code of protocols. 

B. Other Related Work 

Kannan et al. proposed a semi-automated method for ex¬ 
tracting session structures of an application protocol based on 
the session logs between a pair of end hosts. Comparing Kan- 
nan’s method with ProDecoder, first, the goals are different - 
Kannan’s method aims at extracting session structures whereas 
ProDecoder aims at extracting protocol message formats. 
Note that session logs are typically unavailable for unknown 
application protocols. If we are given full logs of sessions 
between many pairs of end hosts, it is straightforward to extend 
ProDecoder to output session structures. Second, the level of 
automation is different - Kannan’s method is semi-automated 
whereas ProDecoder is fully automated. 

Haffner et al. proposed AC AS, a method for the automated 
construction of application signatures based on packet traces 
[17]. The goal of ACAS is different from ProDecoder: ACAS 
aims at obtaining application protocol signatures whereas 
ProDecoder aims at obtaining message formats. Application 
protocol message formats can be used as protocol signatures, 
but not vice versa. A major limitation of ACAS is that it 
assumes that the first 64 bytes of a flow completely describes 
the structure of the application protocol carried by the flow. 
This assumption often does not hold in reality especially 
for binary protocols. Ma et al. proposed another protocol 
identification method that uses statistical and structural content 
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Fig. 2. Architecture of ProDecoder 


models based on flow content [23]. Similarly, this method also 
assumes that a protocol is a distribution on sessions of length 
at most n, where n is 64 in [23]. 

Wang et al. proposed Veritas, a system for automatically 
inferring protocol state machines from network traces [35]. 
They use a Kolmogorov-Smirnov (K-S) test based method 
to extract application protocol signatures, which is needed 
in constructing protocol state machines. Veritas also differs 
from ProDecoder in terms of goals - Veritas aims at obtaining 
protocol state machines whereas ProDecoder aims at obtaining 
protocol message formats. Furthermore, Veritas only analyzes 
the first n bytes of each packet, where n is 12 in [35]. 

III. ProDecoder 

In this section, we present details of ProDecoder, a se¬ 
mantics aware approach that takes network traces as the 
input and automatically outputs the inferred protocol message 
format. ProDecoder has four major modules: n-gram genera¬ 
tion, keyword identification, message clustering, and sequence 
alignment. Figure 2 shows the architecture of ProDecoder. We 
next provide details of each component below. 

A. n-gram Generation 

The input to ProDecoder is a set of packet traces that 
are of the same application protocol. The trace of one flow 
contains many packets. Each packet contains either a partial 
or complete keyword, or multiple keywords defined in the 
specification of the protocol. A keyword is essentially a byte 
sequence of arbitrary length. For example, the keywords used 
in the Simple Message Transfer Protocol (SMTP) include 
“MAIL FROM”，“RCPT TO” ， “250” ， "OK", etc. In addition 
to text based protocols such as SMTP and HTTP, ProDecoder 
is also aimed to decode binary protocols such as SMB. 
Therefore, we need to further break down each keyword into 
constituent elements. For example, the keyword “250” can 
be decomposed into ”2” ， “5”， and “0”. Note that we can 
aggregate consecutive elements to create up-scaled elements. 
For example, the three consecutive elements ”2” ， “5”， and “0” 
can be combined into the keyword “250”. These elements are 
also known as tri-grams, where three consecutive elements can 
be joined together. Similarly, this process can be generalized to 


n-grams, where n denotes the number of consecutive elements 
that are joined together. 

The key technical question in this module is what value 
should be used for n. We conducted a pilot study on the 
distribution of n-grams in two well-known protocols, SMTP 
and SMB, for varying values of n. Figure 3 shows the 
distributions of n-grams in both SMTP and SMB. As ex¬ 
pected, the distribution of n-grams in both protocols is highly 
skewed. In Figure 3, x-axis denotes the rank of n-grams 
in terms of their frequency on y-axis and both axes are 
converted to logarithmic scale to emphasize the skewness in 
their distribution. We observe that the distribution of n-grams 
approximately follows a straight line on log-log scale, which is 
a characteristic of Zifp distribution [24]. It is well-known that 
for most natural languages, the word occurrences follow a Zipf 
distribution. Furthermore, we observe that the goodness-of-fit 
values improves for n = 3 compared to n = 2. However, 
we also observe that the distribution becomes highly sparse 
for values of n > 4. Using the these observations, we choose 
n to be 4 for our method. On a related note, some binary 
protocols may have keywords whose sizes are smaller than n. 
Such keywords are combined with adjacent bytes to from n- 
grams. Later in Section III-D, we show that ProDecoder can 
identify these keywords by using sequence alignment. 

B. Keyword Identification 

The purpose of this module is to identify the protocol key¬ 
words that appear in the given network trace of an application 
protocol. The input to this module is a sequence of n-grams 
generated by the previous module. The output of this module 
is a sequence of protocol keywords identified by ProDecoder, 
where each keyword is the concatenation of one or more n- 
grams. These keywords will be used in the next module to 
cluster messages. 

We now present our Latent Dirichlet Allocation (LDA) 
based approach to keyword identification. Let m denote a 
message consisting of a vector of words z m , where each 
word 2 ： is a candidate protocol keyword and it consists of 
a vector of n-grams w z . In the context of this paper, here a 
message means a packet. To identify protocol keywords from 
a corpus of messages, we use a generative model called LDA, 
which has been widely used in natural language processing 


































































0 


-2 

1-3 



-5 

-6 


2- grams; R 2 = 0.917 

3- grams; R 2 = 0.9308 


◊ 4-grams; R 2 = 0.9419 



-7L 


2 3 4 5 

Log Rank 


(b) SMB 


Fig. 3. n-gram distribution in SMTP and SMB protocols 


[3], [9]. The counterpart of protocol keyword identification 
in natural language processing is topic identification from 
a corpus of documents, where each document consists of a 
vector of words. In our approach, each message is treated as 
a probability distribution of words, where each word is in 
turn a probability distribution over n-grams. Given a corpus 
of M messages, let p(w) be the marginal probability that 
n-gram w appears in the corpus, let p(z = Zk) be the 
marginal probability that word Zk appears in the corpus, and 
let p(w\z = Zk) be the conditional probability that n-gram 
w appears in a message containing word Zk in the corpus. 
Therefore, for a corpus of M messages containing a total of 
K unique words, the marginal probability of n-gram w is 
defined as follows. 


K 

p{w) =y^p(w\z = z k )p(z = z k ) 

"I" ⑴ 

subject to: ^y^p(z = Zk) = 1 
k=l 

The task of LDA is to use the given corpus of M mes¬ 
sages to estimate two types of distributions: (1) the n-gram 
distribution p(w\z = Zk), denoted (fk, for each word Zk, 
and (2) the word distribution p(z), denoted for each 
message m. We use two parameter sets, (j) = {<Pk}h and 
0 = {^m}m=v where each is a matrix, to represent these two 


types of distributions, respectively. Given cj) and 6, the LDA 
model can generate a set of n-grams Wm jU , where u denotes 
the index of this n-gram with respect to message m. This 
generation process is dictated by two hyperparameters, a and 
/3, where a is the Dirichlet prior parameter of per-message 
word distributions and (3 is the Dirichlet prior parameter of 
per-word n-gram distribution. Specifically, for each message 
m, a sample word distribution 汐 m ~ Dir(a) is drawn, where 
Dir(a) is the Dirichlet distribution for parameter a. Based 
on dm, a word indicator Zm, u 〜 Mult^m) is sampled for 
n-gram w miU , where is the multinomial distribu¬ 

tion with parameter d m . For each word indicator the 
corresponding n-grams w m , u 〜 Mult(^p Zrn u ) are generated. 

Our goal is to identify the set of keywords used in the 
application protocol message format. Towards this end, we 
need to identify the n-gram distribution for each word and 
the word distribution for each message in the given corpus. 
This is a classic Bayesian inference problem, where the target 
posterior distribution is defined as follows: 


p{z\w) 


p{z, w) 
p(w) 



^ = 1 p{Zi,Wj) 

T,k=lP( W ^ Z i = k ) 


( 2 ) 


Our target distribution p(z\w) represents word distributions for 
the given message corpus. The denominator p(w) denotes the 
marginal probability of generating n-grams and the numerator 
p(z, w) denotes the joint probability of generating words and 
their corresponding n-grams. The solution to this problem 
gives us K keywords and their associated W n-grams for the 
given corpus. However, we cannot directly solve for the target 
distribution because denominator p(w) involves a summation 
over K w items and it does not factorize [3], [12]. Therefore, 
we cannot obtain a closed-form solution for the Bayesian 
inference problem described in Equation 2. 

To obtain an approximate solution for the Bayesian infer¬ 
ence problem, there are three candidate strategies: (1) variation 
Bayes, (2) expectation propagation, and (3) and Markov Chain 
Monte Carlo (MCMC). Among these three strategies, we 
choose MCMC because it is tolerant to local optima, requires 
little memory, and is competitive in speed [14]. Specifically, 
we use an MCMC algorithm called Gibbs sampling [15]. 
Gibbs sampling is an iterative algorithm, where in each 
iteration the value of each variable is updated by a value 
drawn from the target distribution of that variable conditioned 
on the rest of variables. For our problem, p(z\w) in Equation 
2 is our target function from which we draw samples. Each 
sample Zi is replaced by a value drawn from the distribution 
p(zi\z-i, w), where Zi represents the zth component of z and 
Z-i represents Zj for any j ^ i. By further simplification, the 
conditional posterior distribution p(zi\z-i,w) can be derived 
from the following proportional relationship, where is the 
number of times that n-gram t is assigned to keyword k and 
n)n is the number of times an n-gram from the message m 



















has been assigned to keyword k. 
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After a sufficient number of iterations, MCMC converges and 


we obtain keywords z, which are then used to estimate the 
parameter sets 0 and 0 according to the following equations: 
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To ensure that the Gibbs sampling algorithm has converged 
and that the model with the estimated parameter sets 0 and 
(j) is generalizable, we use perplexity to quantify the quality 
of our estimation. Perplexity, which is defined as follows, is 
a well-known measure of the ability of a model to generalize 
to unseen data [ 2 ]. 

„ 7 、 f lo SP(^m) } 乂、 

perplexity[Dtest) = exp < - —jg - > (6) 

I Z^m=l ) 


total number of keywords K is typically orders of magnitude 
smaller than the total number of n-grams; thus, using key¬ 
words as features significantly reduces the dimensionality of 
the clustering problem compared to directly using n-grams as 
features. 

Using keywords and their corresponding probabilities as 
features, we apply the standard hierarchical clustering method. 
We use the Information Bottleneck (IB) [32] as the metric 
for cluster validation because of two main reasons. First, IB 
allows us to find a solution with suitable trade-off between 
the complexity of the model and its precision. Second, IB 
eliminates the need of defining similarity or distance measures 
for clustering in advance. 

Given a set of feature vectors X = xi, a； 2 ,xm (where 
M is the number of messages in the given corpus), IB allows 
us to partition the set into C clusters. Towards this end, we 
need to introduce another auxiliary random variable Y, which 
incorporates relevant features of X. The objective of IB is to 
cluster X into C clusters while preserving the relevant features 
Y as much as possible. Formally, IB optimizes the following 
expression: 


£ma X = I(C ； Y)-^I(C ； X), (7) 


where N m is the total number of n-grams in message m. We 
use all training data to compute the perplexity score. A lower 
perplexity score denotes better generalization performance in 
practice, so we prefer a lower perplexity score in ProDecoder. 
Perplexity also allows us to determine the right number of 
keywords for the given corpus of messages. 


where 7 works as a trade-off between /(C; Y) and /(C; X). 
Here /(C; Y) denotes the mutual information between random 
variables C and Y. Let p(C, Y), P(C), and P(Y) denote the 
joint distributions of C and Y, the marginal distribution of C, 
and the marginal distribution of Y, respectively. Thus, then 
mutual information is defined as: 


C. Message Clustering 

An application protocol has many types of messages where 
each type of messages follow a particular format. To infer 
the different message formats used by an application 
protocol, we need to partition the given corpus of 
messages into multiple clusters where the messages in 
one cluster are of the same type following the same format. 
For example, given a corpus of four SMTP messages, 
MAIL FROM : <alice@gmail.com>, MAIL FROM: 
<bob@live.cn>, RCPT TO : <smith@gmail.com>, 
RCPT TO : < john@gmail. com>, we need to partition it 
into two clusters, one containing the first two messages and 
the other containing the last two messages. This message 
clustering module accomplishes this task. 

In this module, for each message, we use the K key¬ 
words (and their corresponding probability) associated with 
the message as its K features. After keyword identification, 
each message m is labeled with K keywords where each 
keyword k is associated a probability Note that without 
the keyword identification module, we can use the n-grams 
generated from each message as its features; however, this 
naive solution has serious disadvantages compared to our 
method. First, keywords represent a high level abstraction 
of n-grams and incorporate the correlation among multiple 
n-grams. Directly using n-grams as features will lose such 
correlation information. Second, for a corpus of messages, the 
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Mutual information I lies in the range [0,1]. The larger the 
value of mutual information is, the more the two random 
variables are dependent. 

In ProDecoder, we heuristically set the number of clusters 
to 1.5 times the optimal number of keywords K, identified ear¬ 
lier. We also explored using Dunn index to select the suitable 
number of clusters; however, it resulted in degraded accuracy. 
After the number of clusters, denoted A, is determined, we 
recursively merge clusters to minimize the merger cost imax 
after initially treating each message in the corpus as a distinct 
cluster. This recursive procedure continues till only A clusters 
are left. 


D. Sequence Alignment 

For each cluster of messages, the sequence alignment mod¬ 
ule aims to infer the final protocol message formats for the 
cluster by finding the invariant fields among messages, which 
are in the form of regular expressions. For example, for the 
following cluster of three messages: 

1) MAIL FROM: <alice@microsoft.com> 

2) MAIL FROM: <bob@berkeley.edu> 

3) MAIL FROM: <carol@gmail.com> 








our sequence alignment module will output the regular expres¬ 
sion 

MAIL FROM: 

In ProDecoder, we use the Needleman-Wunsch algorithm 
for sequence alignment [26]. The weight parameters of the 
Needleman-Wunsch algorithm used in this study are match 
= 2, mismatch = —2, and gap = 1. The basic Needleman- 
Wunsch algorithm can only deal with two sequences at a time. 
In ProDecoder, we extend it to handle multiple dimensions by 
lining up N sequences along N 1-dimensional edges of an 
TV-dimensional hypercube. However, the computation of the 
scoring function in this scheme requires Q(2 N L N ) operations, 
where L represents the length of the final sequence after 
alignment. To improve efficiency, we use a well-known heuris¬ 
tic method called progressive alignment to perform multiple 
sequence alignment [13]. 

IV. Experimental Results 

We evaluate the effectiveness of ProDecoder in inferring 
protocol formats of both textual and binary protocols. The 
input to ProDecoder is the real-world traffic trace containing 
packets of the target protocol and its output is the inferred cor¬ 
responding protocol message formats. Below, we first describe 
the data set used for evaluating ProDecoder, then define the 
evaluation metrics, and finally present experimental results. 


A. Data Set 

We choose SMTP, which is used for email communication, 
as the target textual protocol, and SMB, which is used for 
file sharing, as the target binary protocol. For the traffic 
classification algorithm used for network trace collection, we 
simply use the TCP port numbers to filter traffic — port 25 
for SMTP and port 445 for SMB. We collect both SMTP 
and SMB traces from a backbone router of a major ISP on 
the Internet. The payload of the SMTP (or SMB) packets in 
our trace will constitute the corpus of the SMTP (or SMB) 
messages. Our trace consists of 5,000 SMTP packets of a 
total of 0.34 MB, 5,000 SMB packets of a total of 0.87 
MB, and 5,000 non-SMTP and non-SMB packets of a total 
of 1.21 MB. The overall size of our trace was limited due 
to computational complexity of keyword identification and 
message clustering modules. The average packet lengths are 
also small for both SMTP and SMB protocols because they 
mostly consist of command codes rather than payload data. We 
use ninety percent of the packet traces for training ProDecoder 
and the rest ten percent for measuring the precision and recall 
of ProDecoder. 

B. Evaluation Metrics for Effectiveness 

Given a packet trace of one application protocol, we first 
define the following three sets: 

1) True Positives: the set of packets where each packet 
matches a regular expression generated by ProDecoder 
and indeed contains the application protocol fields that 
correspond to the regular expression. 


2) False Positives: the set of packets where each packet 
matches a regular expression generated by ProDecoder 
but does not actually contain the application protocol 
fields that correspond to the regular expression. 

3) False Negatives', the set of packets where each packet 
does not match any regular expression generated by 
ProDecoder but actually contains an application protocol 
field. 

Next, we define the following two metrics that we use to 
quantitatively evaluate the effectiveness of ProDecoder: 

iTrue Positives! 

precision = -- ： - ： - ： 

|True Positives| + |False Positives! 

(9) 


recall = ] - 卜「。咖薦 1 - 

|True Positives! + |False Negatives! 


( 10 ) 


C. Effectiveness Results 

The keyword identification process of ProDecoder uses the 
following parameters 

1) maximum iteration count L in Gibbs sampling algorithm 

2) n-gram vocabulary size determined by P. 

3) hyper-parameters a and /3 in LDA 

Next, we first discuss how to select a suitable value for L, and 
then present results for varying values of P, a, and j8. 

Recall that we use the Gibbs sampling algorithm to find 
correlations in n-grams to identify protocol keywords. We 
used perplexity as the metrics to ensure that the LDA model 
estimated using Gibbs sampling is generalizable. As Gibbs 
sampling is an iterative algorithm, it is important to select 
an appropriate maximum iteration count, denoted by L, for 
it to converge. To this end, we study how different values 
of L affect the perplexity values for both SMTP and SMB 
protocols. For both SMTP and SMB, we carry out experiments 
for K = 20, 40, 60, and 80 and P = 40%, 60%, and 80%. 
Figure 4 shows the perplexity values for the above values of 
K and P for SMTP and SMB, respectively. For SMTP, we 
observe that the perplexity values typically converge by 8,000 
iterations. For SMB, we observe that the perplexity values 
typically converge by 1,000 iterations. For the final evaluation 
of ProDecoder, we select conservative values of L = 10,000 
for SMTP and L = 2,000 for SMB protocol to ensure that 
we achieve convergence. The keywords identified using Gibbs 
sampling algorithm are then used as features to cluster mes¬ 
sages into groups. Figure 5 shows the dendrogram structure 
of hierarchical clustering for SMTP and SMB protocols. After 
clustering messages, we finally use sequence alignment to infer 
the final protocol message formats. 

Next, we present the precision and recall results of ProDe¬ 
coder for varying values of P, a, and (5 for both SMTP and 
SMB packet traces. In our evaluations, we vary the ranges 
of a G {0.1,0.5,0.9}, 13 e {0.005,0.01,0.05,0.1,0.5}, and 
P G {0.4,0.6,0.8}. Figures 6 and 7 show the plots of both 
precision and recall for varying values of a, /3, and P for SMB 
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Summary of running time of ProDecoder’s modules 
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Fig. 5. Dendrograms of hierarchical clustering for SMTP and SMB protocols 


protocol. We observe that ProDecoder achieves 100% preci¬ 
sion for all possible values of a, /3, and P. Furthermore, the 
recall values of ProDecoder vary in the range of 60% — 100% 
for different parameter settings. The recall of ProDecoder 
degrades for higher values of a and /?, and lower values of 
P. For SMB protocol, the optimal values of ProDecoder 5 s 
parameters are a = 0.1, /3 = 0.005, and P = 0.8 and 
the corresponding precision and recall values are both 100%. 


Figures 8 and 9 show the plots of both precision and recall for 
varying values of a, /3, and P for SMTP protocol. For SMTP, 
we observe a different trend for the precision of ProDecoder. 
Specifically, the precision of ProDecoder decreases for higher 
values of P and lower values of /3, whereas it is unrelated 
for a. The recall values of ProDecoder generally decrease 
for higher values of a and /?, and lower values of P. Note 
that the trend observed for recall of ProDecoder is similar 
for both SMTP and SMB protocol. For SMTP, the optimal 
values ProDecoder’s parameters are a = 0.1, /3 = 0.01，and 
P = 0.6 and the corresponding precision and recall values are 
both approximately 95%. 

D. Efficiency Results 

We evaluated the computational efficiency of difference 
modules of ProDecoder. The results are in Table I. Our 
experiments were executed on a cluster machine where each 
node had 4 quad-core Xeons processors running at 2.13GHz 
with 16GB RAM. We note that keyword identification and 
message clustering modules consume at least an order of 
magnitude more time than the n-gram generation module and 
the sequence alignment module. Note that ProDecoder runs 
offline for a given network trace. 
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V. Conclusions 

This paper represents the first attempt that leverages the 
semantic information (such as the relationship among multi¬ 
ple common byte sequences) in protocol messages to infer 
their format specifications. ProDecoder is a novel multidisci¬ 
plinary approach, which draws upon theories and techniques 
from natural language processing, machine learning, and bio¬ 
informatics literature. It is purely based on raw network 
packet traces and does not require protocol executable code. 
ProDecoder works with asynchronous application protocols 
and sampled network traces and does not assume any prior 
knowledge about protocol message formats (such as the delim¬ 
iters used in protocol messages). Our evaluations on real-world 
network traces of two well-known textual and binary protocols 
showed that ProDecoder can accurately and efficiently infer 
protocol message format specifications. 
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摘 要： 为降低自动机类多模匹配算法的空间升销，同时仍保持较低的算法时间复杂度，提出了 一种基于位 
图的空间优化算法.将自动机全部状态按照字典树结构的层数划分，将访问頻車较低的后若干层状态对应的 
转移表压缩存储，并使用位图提高对被压縮信息的检索速度.经过实验和在实际应用环境中的验证，这种改 
进算法能够大幅降低空间升销，而匹配时间或响应时间基本不变.在模式串的数量达到万条以上规模时，实 
验表明优化算法能够降低25% ~70%的空间消耗. 

关 鍵词： 多模 匹配； AC 算法； 有限状态自 动机; 位图 
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A multiple 卞 attern matching algorithm based on bitmap 
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Abstract : In order to reduce the memory consumption of automata algorithms in the field of multi-pattern 
matching» this paper proposes an efficient space optimization algorithm based on bitmap. It divides all the 
states in the automata into two groups by their depth in the data structure “trie’’ ， and reduces the memory con¬ 
sumption of the deeper group that will be retrieved less. It also makes use of bitmap to improve the time effi¬ 
ciency of the deeper group. Our experiments show that this algorithm can sharply reduce the memory consump¬ 
tion » and when the number of patterns is more than the level of 10 thousand ， the space consumption can be 
decreased by 25% -70% . 

Key words : multi-pattern matching ； Aho-Corasick algorithm ; finite state automata ； bitmap 


多模式匹配算法主要应用于入侵检測、病毒 
扫描、信息检索等领域.隨着近年来信息检索领域 
和计算生物学领域的迅猛发展，多模匹配算法也 
在其中获得了新的应用 D] . Aho-Corasick CVC) 算 
法 t] 使用的自动机结构通常也被称作 AC 自动 
机 . 许多自动机类的多模匹配算法，都使用了与 
AC 自动机相类似的存储结构.相比其它一些多模 
匹配算法，如使用 Factor Oracle 自动机的 SB0M 
算法，不使用自动机的 Wu-Manber 算法等 6] 相 


收稿日期 = 2009-02-22. 

基金项目：国家自然科学基金资助項目 60703014) ;高等学校博 
士学科点专项科研基金资助項目 60070213044) ;中 
国博士后科学基金资助項目 &0070410263) ;哈尔滨 
工业大学优秀青年教师培养计划资助项目 <Hitqnjs. 
2007. 034). 

作者 简介： 张元免 4986— ) ，男 . 硕士研究生 . 


比 ， A C 类的算法在很多场合下具有时间效率上的 
优势 . 当模式串集合中最短字符串的长度较短时， 
AC 算法的匹配速度相比之下更快.目前已有一些 
对 AC 进行空间优化的算法，包括位自动机等， 
存在着许多 局限； 另有一些方法是从減少状态出 
发，例如路径压缩，如果自动机中某个分支上连续 
多个状态没有其它分支，就将它们合并为一个状 
态，并另外消耗内存保存新状态中的每一个字符 
的失敗转移.本文 AC-Bitmap 算法是对 AC 算法 
的一种改进.它将自动机的全部状态按照字典树 
结构的层数划分，将访问频率较低的后若干层状 
态对应的转移表压缩存储，并使用位图提高对被 
压缩信息的检索速度 . 
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1 AC - Bitmap 算法描述 

多模式匹配的 AC 算法包括构造自动机和文 
本匹配两个部分.构造自动机部分可看作是一种 
预处理，使用模式集合构造出一个自动机 结构； 而 
文本匹配部分则是多模式匹配的实质内容，利用 
已生成的自动机结构实现高效的匹配.而 AC -« it - 
map 算法也同样由这两部分 组成. 

1.1 生成自动机的全部状态 

与 AC 算法相类似，在 AC - Bitmap 算法的预 
处理部分，同样根据字典树生成自动机的全部状 
态.但是此处为了后续分层的需要，将状态按照在 


字典树中节点的深度的顺序来编排.例如，对于模 
式集合 { ie ， she ， his ， hers } ，将产生图 1 中所示 
的字典树. 

相应地， failure 函数与 output 函数的取值也 
将发生一些变化，如表1所示. 



图1按层次编号的字典树 


表 1 failure 与 output 函数 


状态 123456789 

failure 000010232 

output 0 0 1 0 0 0 3 1 *2 4 


为此，需要对经典的 AC 算法的 goto 函数预 
处理过程作一些修改 . 其中， m 为模式集合的 
规模 _ 

Build.AC.Trie () 
num _ state = 0 

for i e i . . max _ length} Do 
for j e 1 . . m ) Do 

s = Get _ State _ In _ AC (i ， j ) 

c - Pattern [i ] 

if goto [i>c ] = = - 1 then 

goto [s > e ] = + + num _ state 
end if 


将原二维表的被压缩行改为变长数组，不保存其 
中为0的元素. 

为了实现快速查询的操作，对于每个被压缩 
行，保存一个二进制数值，某一位为1位为该位对 
应的位置在原二维表中不是 “0”，因而存在于压 
缩数 组中； 否则该位为 “0”，即匹配的失败状态， 
需要当场计算 failure 函数值才能确定新状态.上 
述二进制数的位数与字符集的大小相同，亦即与 
原二维表的列数相同，但是可以使用按位存储的 
方式，将每8位压縮到一个字节中存储，因此可以 
节省空间.在状态数超过2 16 =65 536个的情况 
下，转移表的每个位置都需要使用32位变量即4 


end for 

end for 


个字节来保存，在这种情况下上述二进制标志的 
空间占用相对来讲是很小的. 


Get . State . In.AC Q . j ) 
s =0 

for k e i - ■ j - 1} Do 
c = Pattern [ A .] 
s = goto [s > c ] 
end for 
return s 

同时，根据层数划分两类状态，计算 failure 和 
output 函数，对 failure 函数前类状态生成完整的 
二维表，与经典的 AC 算法流程相同.对于 output 
函数层数较深的状态， AC - Bitmap 算法不将 failure 
函数补充到转移表中.并且将转移表压缩存储，其 
目的是节省空间；同时， AC - Bitmap 还建立位图结 
构以加快访问操作的速度. 

1.2 位图 

使用压缩数组存储每一个状态的转移表，即 


为了提高检索速度，再增设一个标志数组，与 
按字节存储的二进制数组具有相同的长度，数组 
中第 i 个数表示前8 { -1) 个二进制位中共有多 
少个“1 ”，这样，每次通过标志数组，可以直接定 
位到要查询的二进制数组中的确定位置.再增加 
一个大小为256 X 8的二维“快表 ( quick - list ) w . 
可以直接定位出一个按位保存的8位的二进制数 
中，某个指定位置之前有多少个 “1”. “快表”只需 
要一个，与状态数无关，可以预先作为常量写在程 
序中，并不增加空间开销.按位存储的二进制数 
组，加上标志数组以及“快表”，就构成了 “位图” 
bitmap ). 它的空间消耗为二维表的 1/16. 定义状 
态总数为 S . 设置阈值 Static _ Depth 将所有状态分为 
两部分，对于前 Static _ Depth 层的状态保存全二维 
表，对于层数位于 Static . Depth 之后的状态则只保存 
goto 函数生成的转移，并使用位图来辅助压缩存储， 
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以兼顾时间和空间效率.在生成全部状态时，算法将 
获得一个数值 Static _ State ，它代表前 Static _ Depth 
层的状态总数.即编号位于区间 [ Static _ State ， S ) 之 
内的状态是采用定长数组保存转移表的，而编号位 
于区间 [Static _ State，S ) 之内的状态是采用压缩数 
组和位图保存转移表的. 

1.3 算法的匹配环节 

AC - Bitmap 算法的匹配环节需要对 AC 算法 
作一些修改，使之能够处理两种存储方式共存的 
情况.主要是在状态转移的环节进行修改，判断当 
前状态所属的区间，对于采用位图压缩存储的状 
态，需根据位图的读取方式访问并获得转移状态. 
对于失配状态，还需要增加回溯计算失配后的状 
态的环节.修改后分的算法流程 下为： 

Next _ State G » c ) 

5 =0 
do 

r = Get _ state Cs ， c ) 
if r = = - 1 then 

s = failure \_s ] 

end if 

while r = = - 1 
return r 

Get _ state ( s ， c ) 

if 5 < static _ state then 
return turn [ 5 » c ] 
end if 

a = c /8，6 = c % 8 
if bin [t ] & bitmap [a ] ) = =0 then 
return - 1 
end if 


i = quick _ list [ a ， 6 ] + bitmap _ num _ ahead [a ] 
return turn [ s ，i ] 

2 算法分析 

定义 n 为待匹配文本的长度，丨丨为最长 
的模式串的长度. 

在预处理阶段，即构造带有位图的自动机的 
部分，算法的时间复杂度为0缶 2 丨 />1 ). 

在匹配阶段，当查询后续的状态转移时，在最 
坏情況下在 Get _ state G , c ) 函数中可能多次循 
环寻找合适的 failure 转移，但其递归次数不会超 
H \ p \. 因此，匹配阶段的时间复杂度为 
0 fc I pi ) •与 AC 算法的匹配阶段时间复杂度 
0 fe ) 相比升高了.尽管如此，由于进入压缩数组 
所保存的状态的概率从整体上看很小，而且还可 
以通过调整阈值 Static _ Depth 的设定来调整这一 
概率，因此 AC - Bitmap 算法的实际运行效果应当 
仍然是接近 AC 算法的. 

3实验与分析 

为測试本算法的实际性能，并与 AC 算法进 
行比较，使用 C + +语言实现了本算法并进行了 
測试.首先，测试模式集合规模较小6 000 ~ 
10 000条模式）的情况，測试环境为 CPU 为 P 4 
2.4 GHz ， 内存为512 MB 的普通 PC 机器，操作系 
统为 Windows XP 6 P 2). 

使用来自某真实项目的字符串集合作为模式 
串集，其内容主要是 URL 字符串，字符集大小为 
256.模式的长度在5 ~64之间.文本则来自真实 
的网络流量，通过使用软件 Wireshark 抓包获得. 


Static .Depth 选取为 10. 測试结果见表 2. 
表2 AC 算法与 AC - Bitmap 算法对比结果 


4$ -V A> _ 

AC 



AC - Bitmap 


内存消耗 /MB 

匹配时间 /s 

内存消耗 /MB 

匹紀时间 /s 

5000 

60.4 

45.5 

42. 1 

39.4 

6000 

76.8 

57.4 

41.7 

40.3 

7000 

93.3 

69.0 

42.8 

39.6 

8000 

112.0 

80.6 

43.0 

40.6 

9000 

129.5 

92.9 

44.3 

41.8 

10000 

147.6 

104.5 

44.9 

42.7 


从表 2 中可以看到， AC-Bitmap 算法在 Stat - 匹配时间甚至略少于 AC 算法，并且 AC-Bitmap 
ic_Depth = 10, 模式串数量处于 5 000 ~ 10 000 之 算法还要多花费在某些压缩状态递归计算 failure 
间时，能够节省 25% ~ 29% 左右的内存升销•实 函数的 时间. 这一实验结果产生的原因应当是由 


际上， AC 算法的空间消耗随着模式串数量增长的 
速度，要远快于 AC-Bitmap 算法 . 因此，在模式串 
数量继续增大时， AC-Bitmap 算法的空间优化效 
果将更加明显 . 同时可以发现， AC~Bitmap 算法的 


于 AC-Bitmap 算法減小了内存消耗，使得内存访 
问时分页错误较少，因而減少了匹配时间 . 

描述对更大规模的模式串集合的对比測试的 
结果 . 測试环境为浪潮双路双核机器，内存为 
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8 GB ， 操作系统为 TurbolO . 測试当中，使用同一 用的文本同样为网络数据包.对比測试了 AC 算 
组大规模模式串集合，模式数量为10 5 級别，模式 法与 AC - Bitmap 算法中 Static . Depth 的多个不同 
串长度在5〜128之间，字符集的大小为256.使 取值，结果如表3所示. 

表3 大规模模式串集合对比測试结果 


Static _ Depth 不加优化 5 层 8 层 

内存开销 /GB 7.1 2.1 2.7 

从表3中可见， AC - Bitmap 算法能够有效地 
降低内存消耗，在 Static . Depth 取值为5时，节省 
的空间开销达到70%左右，而当 Static _ Depth 取 
值较大，接近于模式串的最大长度时，則基本上 
AC - Bitmap 算法就退化为与 AC 算法相类似的情 
况了.对于匹配时间，实验表明对于不同的 Stat ¬ 
ic .Depth 取值，匹配时间没有明显差别. 

4 讨论 

已有许多对于 AC 算法的优化算法.但 
大多都是针对时间效率的优化.这些算法都使用 
了类似于 AC 自动机的存储方式，因此存在着空 
间开销较大的问題.文献 [14] 采用了 banded-row 
存储的方式压缩 AC 自动机的状态存储.该方法 
将每行升头和结尾连续的0压缩掉，并记录被压 
缩的0的个数.这种方法在压缩后在时间复杂度 
上几乎没有损失，因此时间效率方面优于本文的 
算法，但是空间压缩效率显然远不如位图压缩.同 
时，在模式集合规模较大的情况下，该方法的压缩 
效率通常将进一步下降. 

文献 [15 ] 与 AC - Bitmap 算法同样使用了位 
图对自动机类算法进行空间优化，与本文的对二 
维表中的状态行使用位图压缩不同，该文是针对 
实际问題当中可能出现的模式串中字符频率差别 
较大的情况，将高频字符映射到二维表的前列、将 
低频字符对应的二维表中的列使用位图压缩. 

5 结论 

1 ) 针对 AC 算法自动机转移表空间消耗大， 
随模式串数增长快的缺点进行了优化，优化后能 
够有效地节省空间消耗，并且保持 AC 算法优秀 
的时间性能. 

2 ) 根据实际测试， AC ^ itmap 算法能够降低 
空间消耗25%以上，在模式串规模达到十万条以 
上級别时更是能够达到70%左右的优化效果，而 
匹配速度与原 AC 算法不相上下. 

3 ) 在实际应用中，可以根据空间压缩的需 
要，调整 AC - Bitmap 算法中的阂值 Static _ Depth ， 
使得算法能够更加充分地利用有限的内存资源. 


10 层 15 层 20 层 50 层 

3. 3 4.3 4.9 6.8 
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the evaluating criteria for rule growing and rule pruning of the traditional rule-learning algorithm are 
modifiedD and lastly this improved boosting algorithm is adopted to enhance generalization performance of 
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detection dataset indicate that EAIDBRL indeed can improve detection performance of the intrusion 
detection model built with the traditional rule learning algorithm. 
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□ □□□□□□□□□□□□□□□□□□□□a 

□ □□□□.□□□□□□□□□ 

□ □ Boosting □□口 _□ □□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□ EAIDBRIQ efficient 
approach to intrusion detection based on boosting rule 
learning!]. EAIDBRL □□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□•□□□ 

□ 9DD □ SLIPPER □□□□□□ DEAIDBRL □ □ 

□ □ □ □ □ Boosting □□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □ □ • 

2 □□□□□□□□□□□□ —— EAIDBRL 

EAIDBRL □□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□ Boosting □ □ □ □ □ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□•□□□□□□ 
RIPPER □ AT&T □ □ □ □ Cohen □□□□□□ 

□ □□□□• □□□?□□ □□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□• 

□ □ □ □ Boosting □□□□□□□□□□□□ 

□ □□□□□□ RIPPERDn □□□□□□□□• 

Boosting □□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□•□□□□□ 

□ □ □ [Boosting □□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 
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□ □□□□□□□ 2006D 4S 7 [\ 


2.1 AdaBoost □□□□□□ 

AdaBoost □□□□□□□□□□□□□□□ 

□ □□□□□ 口 1 1 口乂口口 .._0 x m Uy m \JI] □ □ □ 

□ □□□□□□. □□ 口□口 

□ □□□□□□□□□□□□□ 1 /rn □口 □□口 口 

□ □□□□□□□□ TO □□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□ hiU---nh 2 [i] n hj 

□ □□□□□□□□□□□□□□□□□□□□□□ 

Hannanan 

□ □□□□□□□□□□□□□□□• AdaBoost □ 

□□□□□□□□□□□□ 1 n n n 


GivenDS =H1 hCb^CD x 2 Uy 2 UU---U 


yi 


G y =□ - 1 □+ lDDz = iD-..DwD 


Weak learning algorithm WeakLearn 
Integer T specifying number of iterations. 

Initialize 口 weight distribution DQ 太 / 口乂-口二 \\m for 
eacHU S. 

For t = lUZU-UT 

① Call WeakLearn D providing it with the distribution D ; D| 

② Get back a weak hypothesis SO 

③ Choose a t G SCI 

④ UpdateDA + Q ,,Dv,D = ^ ~ a, y,!Q X ,[H 

where Z t is a normalization factod chosen so that 

Yj D t+^ ^□3 ; ,D = 

□ S 

T 

Output the final classifier □朋 xU = sig^ /jQ xITI. 


Fig. 1 Description of AdaBoost algorithm. 

□ 1 AdaBoost □ □ □ □ 

AdaBoost □□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□•□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□ 
DDDDDDDDDDDD-DD ID AdaBoost D 
□ □□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□ 
□ □.□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□ 


□ □□□□□□□□□□□□□□□□□□□□□ 

□ □•□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□.□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□. 
□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□ AdaBoost □□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□•□□□□□□□ 

□ !□□□□□□□□□□□□□□□□□□□ 

□ □□□□ □□□□□□□□□□□□□□□□• 

□ □□□□□ •^□ 乂.[|[]口 n □ □ □ y t = YjUj = 1Q---D 
々 •□□□□□□□□□□□□□□□□ a x '- a 2 '- ■■■'■ 
a k D a x + a 2 + ■■■ + a k = \. D D D D d D D D D D 

□ 2D □□□□□□□□□□□□□□□□□□ 

□ □ □ □ □ y, □□?«□□□□□ Yj- □ □ □ □ □ □ 

□ □□□□□ ajlt?i . 

□ 3D □□□□□□□ □□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□ y, 口 

□ □ yi = Yjffl CQ Ar ； D^；[] = a.j . 

2.2 EAIDBRL □ □ □ □ 

EAIDBRL □□□□□□□ AdaBoost □ □ □ □ 

□ □□□□□□□□•□□□□□□ AdaBoost □ □ 

□ □□□□□□□□□□□□□□□□□□□ 

RIPPER □□□□□□□□□□□□□□□□□□ 

□ •□□□□□□ EAIDBRL □□□□□□□□ 
EAIDBRL □□□□□□□□□□□□□ D D9D n 

□ □ !•□□□□□□□□□□□□□□ h..X 
—2 ® 口 □□□□□□□□□□ G xDDD □ □ □ □ 

D n D D D D I fl xDI. 

□ □ 2. □□□□□□□□□□□□□□□□ 

□ □ SDDDDDDD □□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □ □ □ R - D Vx G XDD D xQD i?DDD x ^ 
^DD D D n x ^ R. 


D D 

D □ 

□ □ 

D □ 

□ □ 

- □ 

D 

D 

D 

D 

D 

D 

D 

D 

D 

D 

□□□ 
D D 
D D 
D D 
D D 
D D 


D 

D 


D 

D 


D 

D 


D 

D 


D 


D D 
□□口 
□□口 
□□口 

Don 

□□口 

□□口 

□□口 

□□口 

□□口 

□□口 

□□口 

□□口 
□ □ 

.D 

□ □□□ 
D D D 
D D D 
D D D 
D D D 
D D D 
D D D 


D 


D D 
D D 
D D 
D D 
D D 
□ □ 
D □ 

^ □ 
stiH 

D 
D 
D 
D 
.D 
□ □ 
D □ 
D □ 
□ □ 
□ □ 
□ □ 
D D 


D D 
□ □ 

D D . 
□ □ □ 
□ □ □ 
□ □ □ 


□□ 

D 


D 

D 


Bo 

D 

D 

D 


D 

D 

D 

□ D nD 

□□11 口 

D D D 
D D D 

□ 8 □ 

B 

□ a □ 
d 

□ ad 
D . D 
D D D 
D D D 
D D D 
D D D 






□ □□□□□□□□□□□□□□□□□□□□□□ 
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□ □3. □□□□□□□□□□□□□ -R..D 
□ □ □□□□□□□□□□□□□□□ 

c R >onnn a t a^ xU = c^dd □□口 yx R t u 

a t hQ xU = 0. 

□ □ 4. □ x G X^x G-R fin □ □ -R D D D D 

□ □□□□□□□□□□ . 

□ □ l. □ ^z, XiU 

3 ； z .[]ex@ — a t /iQ X / 口口 . □□□□□□□□□□ 口 


□ □□□□□□□□□□□□□□□□□□□□□ 

□ □ z ? 12 □•口 

□ -RDDDDDDD Cr .□□□□□ ^ D D D HZ 

□ □□□□□□□□ C R = afl ^nu 

Z = X) 瓜 x iUyiU + 2-® - yiC R U- 

Xi $ R Xj €： R 

□ ID 


□ 

a. 

xi^R 


w + = s 

m . 

XiUyiUU 

Xi^ RUyi = 

+i 


w.= 2 

m . 

XiUyiU- 


RUyi = -1 


□ w 0 []w + []W-□ □ □□ lCD □□□□□□□ 2[E 

Z = W 0 + W + ex@ - C R n + W_ ex@ + C^D. 

□ 2D 

□ □ z □□□□□□□ 2nn □□□□□□ □ dZl 
dc R =onn □□□□□□□□ 





□ 3D 


□ □□ 3DD □□ □ □ □ □ □ w_n □ □ odd □ 
□□□□□□□□□□□□□□□□•□□□□□ 
i/2w n □□□□□□□□ □□ 4 dd 

° l.n W ++ I0 2 »nn 

Ck = 2 li i W_+10 2»nU- □ 4 口 

□ □ □ □ C R □ □ □□ 2DD □□ □ □□ 5DD 

Z = W 0 + 2 y w + W_ = 

1 ~D \/ w + - ^ w - D 2 - □ 5 口 

□ □□ 5DD □ □ □ □ no □ □ □ □ RQU □ □ 

I y w + - y w_ 丨口 4 口 

□ □ dc b □□□□□□□□□ y w_ — j w + n □ 

□ i?0DDD □□□□□□ 
□□□□□□□□ 


z = ,/W7 - /wT . □ 6D 

□ □□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 
口 

□□□□□□□□□□□□□□□□□□□□□. 

□ □ □ □ RIPPER □□□□□□□□□□□□□□ 

□ □ □ FOIL □□□□□□□□• 

□ □ 5. □□□□□□□□□□□□ rvu □ 

□ □□□□□□□□□□□□□•□□□□ 

□ □□ 


v + = s 

10 . 

XiQyiQQ 

x,^R = +: 

1 


v-= s 

m . 

XiUyiQQ 

Xi^ R = - 

l 



口 

□ C R DDDDD4Dn 
□□□□□□□□□ 

口 

□ l - y + - y_n+ v + ex 0 - c R n + 

□ 

V- ex@ + C r D- □ 70 

□ □□□□□□□□□ DEAIDBRL □ □ □ □ 

□ □□□□□7DD 

□ □ □ □ □ EAIDBRL □□□□□ 2 □ □ □□ □ □ 

□ AdaBoost ODD EAIDBRL □□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□ □□□□□□□□□□□□□□□• 
□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□• 

3 □□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□•□□□□□□□□□□□□□ 
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□ □□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□•□□□ 


□ □□□□□□□□□□□□□□□□□□□□□ 
□ □□□□/□□□□□□□□□□□□□□□□/ 
□ □□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□•□□ 
□ □□□□□□□□ 3D □. 


Given 口 S =\s\ x 1 Qy 1 [] □…口 x m Uy ^,6 XUyi 6 Y=U Y l UY 2 U=U - 1 □+ lEEK = 1 □… dm 口 
Sj =[ID •^□ 乂 . 口 1 ：^ := '^口 a □ 乂 □6SCD 
a) for each Yj and a\ + a 2 = 1 • 

Initialize 口 for eacHU •□: y,. 口 6 S[] ifl S 7 QDQ / /□= ajl I I . 

For t = IQ..DTD 

ID Train the weak-learner using current distribution D t U 

① Split data into GrowSet and PruneSetD 

② GrowRule 口 starting with empty rule 口 greedily add conditions to maximize Eq 口 6 口 

□ 

③ PruneRuleDstarting with the output R of GrowRule 口 delete some final sequences of conditions to minimize EqD 7|~ | |~ 1 where Cr- is 
computed using Eq 口 4 口 and GrowSet 口 

④ Return as R t either the output of PruneRuleD or the default rule 口 
2D Construct weak hypotheses h, • X—SCI 

口 

Let C 尺 ， be given by Eq 口 4ITI evaluated on the entire dataset □口 then 


oc t /jQ xD = 


C^D if R t u 

0D otherwise^ 

3D Update weight of the distribution 口 

口 

① For each x t 6 i?,Qset LQ XjUyiU^P^ d ： V,.[]/ex0 :>^ 尺 : 口口 

② For each class Y^Dlet Z) =T1 2 LQ A Qy, □!""!/a) □ 

U 口 a ： ! o^-dg Sj U 

③ For each Xj Di£] S^DsetD,+[j] a:,D^,D** - IQ XjUyjUlZjU 


Output final hypothesis 口 HI x □: 


E c 

R t -xe R t 


Fig. 2 Description of EAIDBRL algorithm. 
□ 2 EAIDBRL □ □ □ □ 



□ □□□□□□□ EAIDBRL □□□□□□□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□•□□□□□□□□□□□□□□ □□□□□□□□□□• 

□ □□ 4nn.□□□□□□□□□□□□□□□ 

□ □□□□•□□□□□□□□□□□□□□□□ 4 □□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□•□□□□□□□□ 4.1 □□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ □□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□ DKDD Cup 1999 □ □ D D13D . □ □ 
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Fig. 4 The efficient intrusion detection model based on 
boosting rule learning. 
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Table 2 

□ 2 

Detecting Results for DOS Attack 

□ DOS □□□□□□□□ 

% 

Algorithm 

DR 

FPR 


C4.5 Rules 

61.89 

3.42 


RIPPER 
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3.37 
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2.35 


EAIDBRL 
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C-SVM 
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2.21 


Table 3 Detecting Results for PROBE Attack 
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% 
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DR 
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Table 4 
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Detecting Results for R2L Attack 
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Detecting Results for U2R Attack 
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Research Background 

In recent yearsD intelligent intrusion detection techniques based on machine learning have been the research hotspots in the field 
of intrusion detection. Whereas some current machine learning algorithms can' t meet the requirement of the network intrusion 
detection models for detecting efficiency and accuracyD which restricts the application of machine learning into intrusion detection. 
Based on the study of the traditional inductive learning algorithmD we apply the rule-based inductive learning algorithm to intrusion 
detection. For the case of intrusion detection training example insufficiencyD an improved boosting method is adopted to enhance weak 
rule learner for intrusion detection so as to eliminate overfit. The experiment results validate the effectiveness of our research work. 
Our work is supported by the National Natural Science Foundation of Chinfl 60403033d. 
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Abstract: A fast string matching algorithm for large scale siring set called SRS is addressed in this paper,it can achieve good 
perforraance.The speed of string matching using SRS algorithm can be 10 times higher than that using classical algorithm when 
the string set is 100 thousand.SRS algorithm can be employed to many applications areas,such as content filtering,antivirus,anti¬ 
spam, ehott message filtering, IDS/IPS systems etc. 

Key words ： string matching;large scale set pattern matchingiSRS algorithm 

摘 要: 提出了一种适用于大规模特征集的快速匹 K ■算洼—— SRS 算法，该算法性能优异,在特征集达到100000条时，匹配速度 
比经典算法快10倍 以上。 该算法适用于内容过滤、防病秦、反垃圾邮件、短信过滤、网络入侵检測和仿御等众多领域。 

关 键词: 字符串 匹配; 大规模特征 西配; SRS 算法 
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1引言 

随着计算机网络及其应用的快速发展,人们可以非常匣捷 
地获取所霱的大童信息。今天，计算机网络已经成为人们日常 
生活中不可缺少的部分。当享受着互联网带来的巨大便利的同 
时，也受到了非法入侵、攻击、病毐、垃圾邮件等恶意行为的困 
扰。针对网络上的这些恶意行为 , 出现了很多不同的防御措施。 
从早期的防火墙，发展到后来的内容过滤、网络入侵检测/ 防御 
系统 ( 〖 DS/IPS)m 、 病毒扫描系统，最近又提出了统一威胁管理 
(Unified Threat Management,UTM) 系统。 

随 t 网络上恶意行为种类和数量的急剧增加,不管是传统 
的网络入侵检测御系统、病毒扫描系统，还是最新的集众多 
功能 于一身 的统一威胁管理系统，需要 E 置的规则数量都急剧 
增长，少 M 几万，多则十几万,这就需要大规模特征集的字符串 
匹配技术。而且，网络的速度越来越快,网络和信息安全系统需 
要实时在线处理，这就对宇符串匹 配算法 的性能提出了很高的 
要求。本文的主要 H 的就是要提出一种适用于大规模特征集 
的、高性能的宇符串匹 S 算法。 

目前已存在多种泛典多模式匹配算法，例如 WM(Wu-Manber) 
算法 ^'ACUho-Cora^k) 算法及 SB0M 算法⑽等。这些经 
典算法都有各自的优点，但是，如果用于大规模特征集又都存 
在各自的不足 之处。 本文在这些经典算法的基础上，采用新的 


设计思路，提出了一种新的适用于大规模特征集和高速网络的 
宇符串匹 & 算法 ~ SRS 算法。该算法借鉴了 WM 箅法中快速 
跳跃的思想，其创新之处在于 : （ 1 )提出了 一种在精确匹 E 返回 
时仍能够继续向前快速跳跃的方法，而 WM 算法在这种情况 
下指针只能向前移动一个 宇符 ; (2) 提出了一种能够减少犄确匹 
配中重复匹 配相间 子串的方法，解决了同一 h as h 函数入口存 
在多个特征串进行楮确匹 K 时效率低下的问题。测试结果表 
明 : 这 些创新方法能够大大提高字符串匹 K 的性能，特别是大 
规模特征集的惰况下，性能提高很大。当特征集达到 100 000 
条时，匹配速度是经典算法的 10 倍以上。 

2 经典多模式匹配算法的不足 

多模 式匹配 算法中比较经典的有 AC 算法、 SB 0 M 算法及 
WM 箅法等， AC 算法是一种基于状态机理论的匹 E 算法 ，它可 
以间时 搜索多个特征，使用有限状态机的结构来接收集合中的 
所有特征串，在最坏情况下更能体现出算法的优越性 。但是 AC 
算法存在很大的不足，就是当特征集不断增大时，存储空问消 
耗呈指数级增长，这对于大规模特征集的应用是个致命的问 
题。 SB 0 M 算法是针对多特征的情况对 B 0 M 算法^的改进算 
法 ，它 结合了跳跃和类似状态机的思想。此算法虽然拥有很好 
的平均性能，但是在最坏情况 T 性能下降 很快; 虽然通过限制 
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状态机的规模解决了 AC 算法存储空间消耗大的问题，但是此 
箅法的设计与实现都比较复杂。 

WM 算法是把 BM 算法〜 中的跳跃思想应用到多模式匹 
配中，此算法确实能够很好地解决平均情况下的算法效率问 
题，在 AgrepPi 和 Snort 中都得到了很好地应用。但是其中也存 
在一些缺点,导致在最坏情况下的性能很差。 （ 1 ) 当 shift 表值 
为0时，需要进行精确匹配，匹配返回时搜索指 针只熊 向前移 
动一个字符，如果 shift 表中存在许多0值或文本中频繁出现 
与特征集后缀相同的子串，算法就失去了向前跳跃的优势 ，算 
法性能下降 很快; （2) 此算法的楮确匹配采用了效率很低的单 
模式匹配算法一 Bmt e -Force(BF) 算法。如果 hash 函数同一 
入口存在多个特征，每个特征都用 BF 算法匹 K, 整个匹配算 
法的效率就会大大下降^>特征集越大，上述两种情况出现的概 
率就会越大，所以 WM 算法也不适用于大规模特征集的匹配。 

3 SRS 算法 

3.1 SRS 算法设计思想 

大规模特征集匹配算法在网络信息安全方面的应用越来 
越广泛，原有的经典算法都不适用，所以借鉴各种经典算法的 
思想,继承其优点，避免其不足，提出了一种新的高效的大规模 
特征匹 E 算法—— SRS(Shift Relay Shift) 算法。 SRS 算法的出 
发点是继承快速跳^的思想,并且能够利用已经得到的匹配结 
果继续进行接力跳跃。从这个设计思想出发，本算法提出了两 
个创新点: U) 用于跳跃的 shift 表值为0时，进行精确 匹配返 
回后仍然能够继续向前快速跳跃;⑵对于 hash 函数同一入口 
存在多个特征的情况，充分利用前缀相同的子串和已有的匹配 
结果尽量减少重复匹配。算法的具体描述如下。 

3.2 SRS 算法的数肀描述 

SRS 算法是一种多模式匹配算法，其数学描述 如下： 

已 知:有 限字符集合为5： ; 

特征串集合为 zmp ,，p 2 ，… ，/ ^，…，I 名 •••/ ， 

pU S(1 句矣％),每个特征串巧的长度分别为I其中最短特 
征串的长度为 

文本为 T = t 、 t /，， t/，w 2(1句炙/1)，通常》在 
求解: r 中所有出现任意 g 的位置。 

即根据建立在一个有限的符号集合上的特征串和文本，找 
到文本中与特征串完全相等的子串的所有出现位置。 

3J SRS 算法预处理过程 

SRS 算法为了达到在文本搜索阶段不断向前跳跃的目的， 
在预处理阶段作了很多工作：为特征串集合建立了两 张表： 
shift 表和 prefix 表，为每个特征串建立了 sub-shift 表,为拥有 
同一 prefix 表入口的特征串子集建立了 same-po8 表。具体结 
构如图1和图2所示。 


fthift 表 


shift 表人口 

表值 ( 跳跃 距离） 

hashi(ab) 

2 

haih,(bc) 

3 

… 


hashi(xy) 

0 

huh]( yz) 

2 


mi *Kift 表结构图 


prefix 表 



图2 prefix 表结构图 

图1中止浪表的入口地址是通过对宇符集合中任意 '个 
宇符用 hash, 函数作敗列得到的 (B, 的取值一般是2~4个宇节)， 
表值是文本匹配阶段搜索指针能够向前的宇符数，其产生 
方法与 WM 算法中 shift 表相同 M。 

图2中 prefix 表的入口地址产生方法与 shift 表的相同，但 
是宇符集合中的任意宇符数是&，散列函数是 hash/A 的取 
值可以与 S, 相同，也可以不同，取值范围相同)，表值是一个指 
针，它指向一个特征串链表，链表中的每个特征串的前缀都相 
同。 prefk 表的某个入口内的特征串数可以是一个或多个，根据 
特征串数目的不同，在文本搜索过程中分别采用不间的处理方 
法，所以在链表前面&一个头节点加以区分。当 prefix 表的某 
个入口内只存在一个特征串，头节点就有两个域(如头节点1 
所 示): 第一个域值为1，表示只有一个特征串链表 节点; 第二 
个域是一个指向特征串链表节点的指针。当 prefix 表的某个入 
口存在多个前缀相同的特征串时，头节点有三个域(如头节点 
2所 示): 第一个域表示此特征串子集中的特征串个数^第二 
个域也是一个指向特征串链表节点的指针，指针所指向的特征 
串按照宇典序排列;第三个域是一个表，叫做 same-pos 表，这 
个表是一^数组，数组的第；项记录此特征串子集中第 <'个和 
第 ; + 1 个特征串的相 N 前缀子串的长度,用于文本搜索的精确 
匹配阶段减少重复匹配相同子串。 sub-shift 表与特征串 一一 对 
应，它 的第； 项表示当特征串的前；个字符在精确匹 E 中与文 
本相同，精确匹 K 全部完成后文本的搜索指针能够安全地向前 
跳跃的距离。 

3.4 SRS 算法搜索过程 

SRS 算法的搜索过 程是： 首先利用函数 hash, 计算文本当 
前被扫描的个字符作为 shift 表的入口地址，并取得 shift 表 
值: c, 如果 * 大于0文本搜索指针可以直接向前跳跃. r 继续搜 
索。如果 x 等于0,就需要计算当前文本前缀尽个字符的 imshj 
函数值作为 prefix 表的入口地址，并取得特征链表的头节点。 
从头节点中可以得到该入口地址的特征串个数,苔只有一个特 
征串.就用 Bnite-Foree 算法对其与文本进行褚确匹 K, 返回时 
根据相应的 SU b-shift 表值移动文本搜索指针继续搜索。若该 
入口存在多个特征串，就需要逐一与文本进行格确匹配。每次 
当前特征串匹配完成时，先査找 same-pos 表取得当前特征串 
与下一特征串相间子串的长度，然后根据本特征串匹 K 结果 
(完全匹配或匹配失败的位置)与 same-pos 表值之间的不同关 
系得到下一#征串开始进行椅确匹配的位置。在特征串逐一 
匹 S 过程中，还需要找到特征串中与文本匹纪失畋的最右位 
置，即与文本相同的最长子串长度，然后根据这个最右位置取 
得相应的 sub-shift 表值，匹 S 返回时根据这个值移动文本搜 
索指针。 
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图 3 特征 «« 糢对 Ptft ； 速度的 彰啥 


AC、WM 及 SBOM 算法在特征集为1 000条时，匹配速度 
大约都在60 MB/a-70 MB/s; 特征集增加到30 000条时，就都 
减小到15 MB/s 左右； 增加到100 000万条时, AC 算法的预处 
理过程由于占用内存过大无法完成, WM 算法的 匹配速 度下降 
到约3 MB/s.SBOM 算法的匹配速度下降到10 MB/ S 左右。 SRS 
算法在特征集规模增加过程中，匹配速度也呈下降趋势，但是 
特征集为100 000条时仍能达到100 MB/s. 特征集为1 000条 
时匹配速度更能达到170 MB/s。 在特征集为100 000条时， SRS 
算法的匹配速度比 WM 算法提高30多倍，比 SB0M 算法提高 
10倍。 

4.2.2 文本命中率对匹 6d 速度的影响 

考察文本命中率在10%到100%的变化过程中，三种算法 
匹配速度的变化情 3L 文本命中率表示特征串在文本中出现的 
概率。本测试项目中特征集为100 000条，命中率是10%表示 
文本中出现特征串10 000条，见图4。 

从总体上说, SHS、WM 和 SB0M 算法的匹配速度都随文 
本命中率的增大而降低。文本命中率从10%增加到100%, WM 
算法的匹 K 速度维持在3 MB/s 左右, SB0M 算法在10 MB/s 左 
右， SRS 算法 的匹配 速度从100 MB/s 左右下降到90 MB/ S ，都 
降低了大约10%,降幅平滑。 


4 SRS 算法性能评价 

本文所提出的 SRS 算法就是为了在大规模特征集的情况 
下,能够获得很好的特征串匹配性能。在这一章中通过与其它 
经典算法的对比测试，来验证 SRS 算法的性能。 

4.1 实验环境描述 

实验 平台: 双核双 CPU Xeon 2 GHz 处理器，前端总线频 
率 1 333 MHz,L2 CACHE 4MB;2GB DDR2-667 内存； 操作 
系统为 Ubuntu Linux 2,6.15-7-686-smp。 

特征串 选取： 随机 产生； 字符串的长度范围是 4By teS - 
100 Bytes (对于中文字符,2个字节表示一个汉字，一般来说2 
个及2个以上的汉字组成一个词语才有意义.所以主要考虑4 
个宇节及以上的情况);其中8 Byles-16 Byles 占80% 0 

文本: 随机产生,随机选取一定数量的特征串插入文本，插 
入比率称为命中率。文本大小为32 MB。 

测试的性能指标:特征串匹配速度，用毎秒处理的字节数 
表示 (MB/s); 预处理过程时间，用 ms 表示; 占用内存空间的大 
小，用 MB 表示。 

匹配算法: SRS 算法、 WM 算法、 AC 算法、 SBOM 箅法。 

4.2 算法性能比较 
4.2.1 特征集 蜒授叼 ffiSd 速度的影响 

考察特征集规模从1 000条到100 000万条变化时,4种 
算法的匹 K 速度，见图3。 


C' — **"'**'* '*• 

0 10 20 90 40 $0 60 70 80 90 100 

•中率 

!-»-VM 二 SBOM -*- AC 
图4文本命中率对风配速度的肜响 

4.2*3 特征集规捞对内存占用的影响 

考察特征集在1 000条到100 000条的变化过程中，4种 
算法内存占用的变化情况，见图5。 



0 10 20 30 40 50 60 70 80 90 100 

特征01 数置 爪 

-•- 撕十 SBOM -»-AC 


W 5 特征集规榷对内存占用的彩响 

AC 算法所占用的内存空间随特征集规模的增大而急剧增 
加，特征集增加到80 000条以上时预处理过程已无法完成。 
SBOM 算法也需要构造类似状态机的结构,所以内存占用增加 
也很快，从40 MB 左右増加到450 MBoWM 算法和 SRS 算法内 
存增加很少，这是由算法本身的数据结构决定的。 WM 算法的 
内存占用量从34 MB 增加到40 MB 左右,增加的6 MB 主要就 
是特征集所占用的 内存; SRS 算法的内存占用量从132 MB 增 
加到140 MB 左右，增量在10 MB 以内，这是因为 SRS 算法 ® 
要构建更多的数据结构。总体上看， SRS 算法的内存占用量是 
WM 算法的3倍多，但完全可以接受。 

4*24 特 征集規換对预处理时间的影晌 

考核一个两配算法的性能，不仅要看算法的搜索性能，还 
要看算法的预处理时间，因为在特征集进行增加、删除、更新 
时，预处理时间对系统的性能影响很大，本组实验就是要看4 
种算法的预处理时间。 

考察特征集在1 000条到100 000条的变化过程中，4种 
算法预处理时间的变化情况，见图6。 



0 10 20 30 40 S0 60 70 80 90 1()0 

特征堆 数置 /K 

-^•SRS - 


图6特征集嫌 m 对預处 理时间的影响 

AC 算法要构建状态机，状态数随特征集规模增大而增大， 
它的预处理时间也急剧增加。 SBOM 算法限制了状态机的规 
模，预处理时间增幅比 AC 算法要好得多，但是增幅也很大，从 
8毫秒增加到800多毫秒。 WM 算法及 SRS 算法预处理时间的 
增加非常平滑，这是由于算法构违的数据结构比较简单。 WM 
算法的预处理时间从1 ms 增加到57 m9,SRS 算法的变化则更 
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表 3 特殊工序 L 不可间断时资源均 衡的工 序安播 


名称 

编号 

工序 

工期 

资源 

强度 





天 






1 

2 3 4 

5 

6 

7 8 

9 

10 

U 

12 

13 

14 15 

A 

4 

2 

2 

2 

2 










B 

5 

3 

4 


4 4 

4 









C 

6 

2 

2 




2 

2 







D 

7 

3 

1 





1 

1 

1 





E 

8 

3 

4 








4 

4 

4 


F 

11 

2 

6 











6 6 

G 

2 

4 

4 


.. 4 . ::. 


4 

' 4 " 







H 

3 

3 

5 





5 

5 

5'j 





K 

9 

2 

2 


v' 2 ； 

2 









L 

10 

4 

2 







2 

2 

2 




每天资源累计用量 


6 

6 6 4 

6 

6 

6 6 

6 

S 

6 

6 

6 

6 6 


S.4 分析与结论 

通过以上算例可以看出，遗传算法在迭代求解时,收敛过 
程是比较稳定而迅速的,说明将遗传算法用于求解本文的模型 
是合理的和有效的。另外.当允许工序间断时，资源均衡的结果 
比工序不可间断时更加优化与合理，说明本文模型的提出是必 
要的，并且也是合理可行的。本文提出的模型还可以处理工序 
间断的多种不同情况，从而可以较好地满足工程实际应用的 


6 结束语 

在以往对网络计划的资源均衡问题进行求解时，工序往往 
被假定为不可间断。但是，在网络计划的实际实施过程中，由于 
有时会存在工序被迫间断和工序工艺不要求连续施工的情况， 
因此以往的工序不可间断的假定不够合理，从而有必要在工序 
可间断的假设条件下对资源均衡问题进行求解对此,本文提 
出了一种新的工序可间断的资源均衡模型。该樓型采用浮动工 
时率、工期间断率、间断延期率等无量纲变量来间接计算工序 
的开工时间和间断时间等变量,从而使得模型中的约束关系在 


计算过程中可以自动得到满足，避免了非可行解的出现。该模 

型还可以通过改变变置的取值范围,来实现所有工序不可间断 

情况及特殊工序不可闸断 W 况的处理。相关算例的求解和结果 

分析表明了该模型的有效性。（收稿日期: 2007年6月） 
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为平缓，从156 ms 到270 但是由于 SRS 算法比 WM 算法 
在预处理时多建立了两个表结构，所以耗费的时间是 WM 箅 
法的4倍多。 

综上所述, SRS 算法能够达到当前千兆网络对算法匹 S 1 速 
度的要求，最低100 MB / S , 最高达到170 MB / s 。 由于 SRS 算法 
在预处理阶段需要构造更多的数据结构,所以预处理时间和占 
用内存量有所增加，但是增幅都很平滑，完全可以接受。总体来 
说, SRS 算法拥有更好的性能。 

5 结束语 

本文提出了一个新的适用于大规模特征集的快速 匹配算 
法一 SRS 算法，该算法的创新之处在于 :通过 在预处理过程 
中達立 shift 表、 prefix 表、 sub - shift 表和 same - pos 表，达到搜索 
文本时指针能够不断地快速向前脈的目的。 SRS 算法的性能 
比其它经典算法有了大幅度的提高，当特征集为100 000条 
时，匹配速度比经典算法提高了 10倍以上。从匹配速度、内存 
占用 a 及预处理时间各方面的性能来看， SRS 算法适用于大规 
模特征集的匹 S ,能够达到目前千兆网络对信息安全系统的性 
能要求。（收稿日期:2007年10月） 
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摘要： 流量分类在深度包检测等网络信息安全领域具有广泛应用，而协议特征的发现是流量分类中的一个重要 
问题。基于文本类协议的特点提出了一种准确、高效的多协议特征自动提取方法。利用网络流量中文本内容的语 
义特点，将流量解析成语义单位，提出了一个在语义空间上的相似性比较方法，并据此对文本类的流量进行聚类。 
然后合并同一类的网络流量并提取出同类流量所共有的特征。实验表明，该方法对常见文本类协议拥有超过 95% 
的准确率，并可以实现对流量的在线学习和分类。 
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TPCAD: a text-oriented multi-protocol inference approach 
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(1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China; 

2. Graduate School of Chinese Academy of Sciences, Beijing 100049, China; 

3. National Engineering Laboratory for Information Security Technologies, Beijing 100049, China) 


Abstract: Protocol inference, which discovers protocol characteristics automatically, is an important problem in traffic 
classification. An accurate and efficient inference method based on semantic analysis of text traffic was proposed. Ac¬ 
cording to the semantic analysis, the text content of traffic to token sequences was resolved. Then the token sequences 
based on a similarity comparison criterion on semantic space was clustered. At last the recognition characteristics was ex¬ 
tracted from the token sequences that belong to the same protocol. In the experiment, the precision ratio is above 95% for 
common protocols and the speed can meet the needs of online training and classification. 

Key words: protocol inference; traffic classification; semantic; clustering 


i 引言 

流量分类根据在流量中所发现的特征来区分 
不同的流量，被广泛用于深度包检测等网络安全领 
域。一般在网络安全监测系统中，首先根据协议特 
征对流量进行划分，然后利用深度包检测技术对流 
量进行深度处理，识别病毒、垃圾邮件等有害信息。 


最传统和直接的流量分类方法是通过流量的通信 
端口来推测流量所属协议及内容。基于端口的方法 
根据 IANA (国际互联网代理成员管理局) [1] 定义的 
端口分配规则来区分不同的流量，但是这个方法目 
前面临2个 问题： 首先，大量新出现的网络应用不 
再遵守 IANA 的 约定； 其次，部分新的应用采用各 
种技术逃避流量分类算法。当前流行的网络应用绝 
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大部分提供端口自定义功能，用户可以自己定义非 
标准的端口来逃避基于端口的流量分类算法。不仅 
如此，一些应用在防火墙禁止绝大部分通信端口时 
可以自动使用未被禁止的常用端口进行通信。因 
此，基于端口的方法会慢慢地失去作用。 

为了克服基于端口方法的缺陷，许多新的方法 
提了出来。这些方法可以分为2 类： 一种是通过流 
量外部特征来进行区分的基于行为的 方法； 一种是 
通过流量内部具体内容来进行区分的基于负载的 
方法。 

基于行为的方法采用统计学习的方法对包到达 
时间间隔、包大小、包数目等统计特征进行学习。 
这种方法假设相同协议的流量具有类似的统计特 
征，根据这个特征可以区分不同的协议流量。这种 
方法的最大好处是不需要观察包的具体内容，有助 
于保护隐私和提高处理速度。但是由于特征信息的 
稀少和不稳定，分类结果容易受到其他因素的干扰。 

基于负载的方法根据包的内容特征来区分不 
同的流量，准确性最好。 L7-filter [2] 和 Wireshark [l 1 
都是使用基于负载方法的流量分类和流量分析工 
具。但是这种方法的最大问题是流量特征的获取方 
法，目前比较常用的方法是通过手工分析获得，如 
L7-filter 和 Wireshark 都是这样获得流量特征的。随 
着网络应用的日益增多和协议格式的复杂化，手工 
分析已经不能满足当前的需要，于是有人开始研究 
自动化的协议逆向工程方法。 Cui [4] 将流量分为文本 
和二进制2种类型，文本类流量是指主要由可打印 
字符组成的流量，其他为二进制类流量。 Cui 的方 
法能够推测出大部分的协议格式，但是这种方法只 
能处理一种协议的流量，所以要求流量主要由一种 
协议组成，对流量的获取要求较高。 Ma [5] 提出可以 
根据服务器 IP 和端口的不同对混杂的流量进行预 
聚类，然后再提取每个聚类的协议特征。这样可以 
自动发现多协议的特征。广域网环境中存在大量使 
用随机端口通信的协议流量，这影响了 Ma 方法的 
使用效果，于是本文提出了一个适合广域网环境的 
文本类多协议特征自动发现方法 ( TPCAD, text 
protocol characteristic automatic discoverer) 。 TPCAD 
算法对流量的文本内容进行处理，根据文本内容的 
语义关系将流量进行切割。算法比较流量中相同位 
置的语义块的类型和值，依据相似性的大小进行合 
并。最后将流量分成几个集合，每个集合的流量都 
属于同一个协议。对于每一个流量集合，算法以语 


义块为单位寻找流量的特征，归并同一位置上相似 
的语义块，从而抽象出该协议的负载特征。通过实 
验可以看出 TPCAD 方法对常见协议的识别错误率 
小于3%,并且除 Gnutella 之外其他协议的召回率 
均达到90%以上。在处理速度方面，骨干网半小时 
数据的训练时间只需 47s , 分类只需 5 s , 完全可以 
适应在线分类的要求。 

本文的组织 如下： 第2节介绍了本方向的相 
关工作，第3节详细阐述了 TPCAD 方法的具体 
过程，第4节通过实验测试了算法的性能，第5 
节是结束语。 

2相关工作 

Claffy 在他的博士论文 [6] 中全面讨论了流量分 
类的相关问题。之后出现了使用机器学习方法对行 
为特征进行学习的流量分类方法， Roughan 等人 [7] 
的工作作为其中的代表，使用最近邻 （NN) 和线 
性判别分析 （LDA) 方法在不同的应用程序数据和 
QoS 类别之间建立映射关系。基于行为的方法需要 
解决的最大问题是如何寻找有效的行为特征和提 
高准确度。 Moore [8] 等人基于有监督的 Navie Bayes 
算法对包括包长,包间隔以及其他 TCP 头信息在内 
的248个流特征进行训练，然后通过关联特征选择 
算法对特征进行筛选，最后发现仅需一小于20个 
的特征子集就可以获得比较正确的分类。 
Karagiannis 等人 [9] 将3个不同层次上的行为特征综 
合起来进行流量分类，从而达到了接近于基于负载 
方法的分类精度。基于负载的流量分类方法目前主 
要集中在对负载特征的自动发现的研究上。 
Weidong Cui 等人在文献 [4] 中设计了一个 
Discoverer 系统，利用提出的聚类方法能够对属于 
同一协议的输入数据进行逆向工程以提取协议字 
段语义信息。 Cui 的方法将流量区分为文本和二进 
制2种，在聚类时主要考虑二进制部分的语义信息， 
最后可以推测出协议绝大部分的格式信息。但事实 
上只需要流量的开头部分就可以实现流量分类。 
Haffcer 等™ 发现了只需要前 64Bytes 负载就可以很 
好地发现特征并进行流量分类。基于 Haffcer 等人 
的发现， Justin Ma 等人在文献 [5] 中，提出了 3种协 
议推理模型，分别是基于统计的乘积分布模型 
(production distribution model)、 马尔科夫过程模型 
(Markov process model) 和通用子串图模型 (common 
substring graph)。Justin Ma 的3种协议推理的优点 
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是无需标注数据，可对原始多协议混杂并存的网络 
流数据进行聚类分析并输出协议特征。在 Justin Ma 
等人自己提供的训练和测试数据下，上述3个模型 
取得了很好的识别效果。 

3协议特征的自动发现 

3.1 方法概述 

Ma 按照服务器 IP 和服务器端口来区分不同的 
协议，这是一个对基于端口方法的扩展。这样的方 
法在局域网中可以达到较好的效果，但是仍然具有 
基于端口方法通病。随着随机端口技术的广泛使 
用， Ma 的预分类方法会逐渐失去效果。 TPCAD 方 
法不再使用端口作为预分类的标准，它将网络中的 
流根据语义信息解析成 Token 序列，然后根据语义 
的相似性进行预分类，将不同协议的流量分到不同 
的集合之中。随后对单一协议的流量集合进行格式 
推测。 TPCAD 方法只考虑文本流量的语义特征， 
因此目前只能发现文本流量的负载特征。图1为 
TPCAD 方法的处理过程。 



图 1 特征提取过程 


3.2 预分类 

预分类过程分为 Token 解析、聚类、关联3部 
分。首先流量被解析成 Token 序列并按照相似性进 
行聚类。然后对于每一类的 Token 序列都进行合并 
得到 Pattern , 接着将 Pattern 按连接关系进行关联得 
到 Pattern 集合。 

3.2.1 数据准备 

互联网采用包机制进行数据传输，而本文的处 
理对象是流。流是指2台主机之间持续传输的数据。 
2台主机之间的通信过程叫作一个会话，一个会话 
包含2条不同方向的流。为了重现流内容，将同一 
流中的数据包进行合并，然后保留流的内容。根据 
Haffner 等人的发现 [6] ,每条流只保存前 64 Bytes 负 
载内容。 TPCAD 方法目前只处理文本类协议数据, 
本文目前对文本类协议数据和非文本类协议数据 
的分类依 据是: 首先统计 64 Byte 的数据中可打印字 
符的总数以二进制块总数，如果可打印字符总数大 


于总字符数的50%,而且二进制块总数小于10,那 
么认为当前数据为文本类协议数据，否则为非文本 
类协议数据。最后将会话的四元组、流方向和负载 
内容保存为输入向量。 

3.2.2 语义解析 

由于网络流量中存在大量负载重复的输入向 
量， TPCAD 方法首先合并负载相同的输入向量。 
为了在合并的同时保留相应的四元组信息，将一个 
四元组列表与输入向量相关联,在今后 Token 序列、 
Pattern 的合并过程中四元组列表都一同进行合并 
操作。 

随后算法将空白字符作为分隔符对输入向量 
进行分割，分割后的每一部分叫作一个 Token , 而 
输入向量则变成了 Token 序列。按是否为文本可以 
将 Token 分为文本类和非文本类。非文本类为二进 
制内容，后面仅对其值进行比较不再做进一步的处 
理。文本类的 Token 还可以进一步划分，按照语义 
特征可以分为句子、版本号、 URL 和普通文本4种 
类型。语义解析的任务就是识别出这几种类型的 
Token 。 Token 不仅具有类型，还具有 属性： 固定和 
可变的。版本号和 URL 只能是可变属性的，可变 
属性的 Token 在 Token 合并后也可能出现，具有不 
同的取值。 

1) URL 的 解析： URL 是在网络协议中经常出 
现的一种格式化字符串，具有明显的语义信息和特 
征。图2是一个典型的包含 URL 的网络流。可以 
看出 URL 在流中具有明显的实际含义而且趋向于 
出现在固定的位置。不过根据 URL 的 RFC 定义 [11] 
可知解析与定位 URL 十分复杂，因此提出了一个 
近似的 URL 解析方法。将流量中常见的 URL 分为 
3种 形式： 包含域名的 URL 、 包含 IP 地址的 URL 
和以“/”开头的 URL 。 对于包含域名的 URL , 根 
据顶级域名列表寻找域名字符串，然后在扩展至整 
个 URL 串。其他2种 URL 也采取类似的方法进行 
解析。 


220 smtpl .tessera.com modusGate ESMTP Receiver Version 4.4.568.3 

图 2 典型的文本类协议流量 

2) 版本号的 解析： 版本号也经常出现在各种文 
本类的网络协议中。它是一个以分隔开的一串 
数字，这与 IP 地址很容易混淆。因此首先判断数字 
串是否为 IP 地址，不是的则为版本号。 

3) 普通文本和非文本的 解析： 根据 ASCII 字符 
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表对每个字符进行判断，将连续的可打印字符归为普 
通文本，而将连续的不可打印字符归为非文本。 

4) 句子的 解析： 将连续的几个有意义单词合并 
为句子类型。利用一个常见单词字典作为有意义单 
词的判断标准。 

为了后续操作的方便，将流的方向也作为一个 
Token , 图3是一个 Token 解析的例子，图中“ \ x 00” 
表示从发起端到回应端的流， “\ x 01” 则表示反方向 
的流。 



图 3 Token 解析过程 


3.2.3 Token 序列聚类 

以 Token 序列为基础，可以归类相似的流量。 
本节将介绍 TPCAD 所使用的序列比较、合并及距 
离的表示方法，最后说明 Token 序列聚类及合并的 
具体过程。 

1) 序列的比较及合并 

2个序列相同是指对应位置上的 Token 相同。 
由于 Token 具有不同的属性、类型和值，在比较时 
可变属性的 Token 只要类型相同就认为它们 相同； 
固定属性的 Token 只有值相同时才相同。合并时， 
同类型的 Token 会被合并成可变属性的该类型的 
Token , 而不同类型的 Token 则会被合并为可变属 
性的普通字符。 

2) 距离的表示 

本文的聚类是以语义的相似度为基础的，只有 
语义结构相似的序列才可以分到同一类中。为此限 
定相似的2个序列具有以下2个 前提： 

前提1 序列的长度相同，即2个序列具有相 
同的 Token 数量； 

前提2 序列的属性分布相同，即2个序列对 
应位置上的 Token 属性相同。 

直观地讲，在2个前提下可以使用2个 Token 
序列中 Token 具有差异的位置数来表示2个序列的 
距离。令 x 表示 Token 序列，则 d { x t , Xj ) 表示2个 

各序列具有差异的位置数。但是在实际实验中这样 
会加大2个序列的距离，造成过分类。于是本文将2 
个序列中 Token 相同的位置数也加入到距离函数中， 
表示为由于可变属性 Token 的相同条件 


比较弱，需要一个系数调节它对距离的影响，在实 
验中发现结果对于这个系数并不敏感，因此指定 
0.49 作为调节系数。使用下标 C 表示固定属性的 
Token , 使用下标 F 表示可变属性的 Token 。 最后， 
距离函数可以表示为如下 形式： 

D { x t , x ) = d c ( x j , x ; ) - s c ( x ; , x .) + 
d v { x i ， ) - 0.49 心 ( x ,. ， x ,.) 

当距离大于 0 时，认为2个 Token 序列具有差 
距，应该被分到不同的类中。 

3) 聚类算法 

为了达到聚类的前提条件，需要先将所有的 
Token 序列进行排序，将满足前提条件的序列分到 
相同段中。然后在每一段中执行聚类算法并合并每 
一个类的序列。 

在进行排序时，首先按照序列的长度进行排 
序，使满足第一个前提条件的序列排在一起。对于 
长度相同的序列按照每一个 Token 的属性从左至右 
进行排序，这样就使满足2个前提条件的序列都排 
在一起。进一步地继续按照 Token 的类型和值进行 
进一步的排序，从而使相似的序列都排在一起。排 
序完成之后，按照2个前提条件将序列分成不同的 
段。 

对于同一段内的序列执行聚类和合并操作。算 
法开始时，每一个序列都是一个单独的类。每一个 
类都与其他类进行比较，如果距离小于0且不匹配 
位置相同，则合并2个类。开始时不存在不匹配位 
置，当2个类合并时含有不相同 Token 的位置会成 
为不匹配位置，这个位置会被记录下来用于下次比 
较。算法循环的对段内的类进行比较，直到没有新 
的类合并发生为止。 

聚类结束后需要将每一个类处理成一个新的 
Token 序列，把新生成的 Token 序列叫作 Pattern 。 
每个类中的匹配位置是不需要改变的，但是需要将 
不匹配位置的不同取值合并成一个新的 Token 。 图 
4是一个合并时的例子。 



图 4 Token 序列聚类及合并过程 
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3.2.4 聚类关联 

根据上面的聚类过程可以看出， TPCAD 聚类 
是很细粒度的，只有相似程度较高的序列才会被分 
为一类并合并到一起。采用细粒度的聚类策略是因 
为每个协议都会有几种不同的负载特征，每一个类 
都是一种负载特征。为了得到某一协议的特征集 
合，需要把几个 Pattern 关联在一起。 

根据前面提到的，一个会话包含2条流，这2 
条流肯定属于同一个会话。以此为基础，可以得到 
四元组相同的2条流属于一个协议。进而可以得到 
四元组列表中包含相同四元组的2个 Pattern 属于相 
同协议。根据这一特性，本文设计了如下算法对 
Pattern 进行关联。 

首先，将所有 Pattern 按方向分为2组，并使用 
这2组 Pattern 构造一个二维矩阵。如图5所示，以 
“■ P 0” 开头的为从初始端到回应端方向的 Pattern , 
以 “ P 1” 开头的是反方向的 Pattern 。 方格中的数字 
表示横纵坐标的2个 Pattern 所对应的四元组列表中 
相同四元组的个数。方格中的数字大于0表示对应 
的2个 Pattern 应该关联在一起。遍历整个表格寻找 
可以关联在一起的 Pattern 。 



图 5 Pattern 关联算法 


经过前面的处理之后，每一个协议都对应为一 
个 Pattern 集合，可以利用 Pattern 集合进行流量分 
类了。在实验部分本文也测试了直接利用 Pattern 
集合进行流量分类的性能。 

3.3 特征提取 

Pattern 所表示的负载特征粒度较细，会造成每个 
协议都含有大量 Pattern , 过多的 Pattern 会降低流量 
分类的速度。为此将同协议的 Pattern 进行合并，抽 
取它们共同的特征作为此协议最后的负载特征。首先 
将有可能合并的 Pattern 分为一组，然后对组内的 
Pattern 进行对齐合并，最后抽取出公共的特征。 


3.3.1 分组 

根据对网络流量的观察，不同方向的流负载一 
般都带有不同的特征，即 Pattern 的第一个 Token 
不同，其所代表的负载特征也不同。不仅如此，大 
部分协议在负载开头的区别都较小，而在负载的后 
部会出现较多的分支，因此第二个 Token 不同的 
Pattern 也具有不同的负载特征。因此可以根据 
Pattern 的前2个 Token 将 Pattern 划分为几个组。 

为了后面组内对齐的方便，需要组内所有 
Pattern 都具有至少一个相同的 Token , 因此需要进 
一步的划分。在组内寻找出现次数最多的 Token , 
把含有此 Token 的 Pattern 分为一组。接着在剩下的 
Pattern 中重复上面的操作，直到所有 Pattern 都被分 
到新的组中。为了排除常用词汇对分组结果的影 
响，可以忽略值为生活中常用单词的 Token 。 

为筛选出日常用词，需要建立一个判别标准， 
并据此进行筛选。本系统以语音识别领域常用的英 
文单词发音词典 Bee P [12] S 基础,稍加修改后作为日 
常用词的判别标准，凡是在词典中出现的字符串均 
属于日常用词。 

3.3.2 对齐提取特征 

在每一个 Pattern 组内至少含有一个出现在所 
有 Pattern 中的 Token , 把这些 Token 叫作对齐点， 
如图6所示。对齐就是要找到一个最长的对齐点序 
列，这是一个最长公共子序列问题 （longest common 
subsenquence ) 。对于输入仅为2个长为 7 V 的串的 
LCS 问题，其复杂度是 0(7 V 2 ) ，而对于输入串为足 
个长为 7 V 的串时，那么 LCS 问题的复杂度为 
尽管这是一个高复杂度的算法，但是 
对于本文的问题而言并不能保证得到最优解。为 
此，本文设计了一个近似算法，并且对于本文的问 
题而言已经可以达到期望的效果。 

在算法中随机选择一个 Pattern 作为基准 
Pattern 。 基准 Pattern 中一定包含所有的对齐点，因 
此把其他 Pattern 与基准 Pattern 进行比较，记下每 
个 Token 出现的次数和出现在基准 Pattern 中的位 
置。处理完所有 Pattern 后，出现次数最多的 Token 
便是对齐点，而且根据 Token 出现的位置可以得出 
最后的对齐点序列。例如， Pattern 组中有3个 
Pattern ： “ ACDB ”、“ ABDC ” 和 “ ADBC ”， 本文选 
择 ACDB 作为基准 Patterno 在遍历一遍之后可以知 
道，出现过的所有 Token 都出现了 4次，因此， A 、 
B 、 C 、 D 都是对齐点，有可能出现在最终的结果里。 
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除基准 Pattern 外的2个 Pattern 的位置序列为“0 3 2 
1”和 “0 2 3 1”，找出出现在所有序列中的递增子 
序列 “0 1”、“0 2” 和 “0 3”。最后选出最长的子序 
列所对应的 Token 序列作为最终对齐点序列，在本 
例中可以选择“0 1”，其对应的 Token 序列为 “ AC ”。 


| \x00 | 

| 220 | |<URL>| |ESMIP〈Sente 

iceC> 

|<URL>| 






| \x00 | 

| 220 | |<URL>| |eSMIP| 


|<URL>| 

| <alnumV> | 





| \x00 | 

| 220 | |<URL>| |ESMIP| 


|<URL>| 

| <Sent( 

inceC> 

- ' 




合并 

| \x00 | 

| 220 | |<URL>| |ESIvnP||〈Sente 

nceC> 

|<URL>| 

1 <alnu 

mV> | 


图 6 Pattern 对齐过程 


对齐之后需要将非对齐点位置的 Token 进行合 
并，对于合并产生可变属性的 Token , 保存其取值 
范围，这样可以尽可能地提高其准确程度。 

4方法验证 

为了验证 TPCAD 方法在实际网络环境中的性 
能，使用实际流量对方法进行了验证。由于 TPCAD 
方法和 Ma 的方法有类似的目的，本文也在实验中 
与 Ma 方法的结果进行了比较。 

4.1 数据集 

本文在国内某骨干网路由器上采集了 lh 的数 
据，流量文件中只包含了 TCP 流量。使用 L 7 -filter 
对流量文件进行标注，通过预处理可知其中包含文 
本类协议的流941502条。为方便对比，本文选取5 
个常见协议对 Ma 方法和 TPCAD 方法进行测试， 
分别是 HTTP 、 SMTP 、 FTP、SSH 和 Gnutella 协议。 
将分类后的文本类协议数据平分为 2 组，一组用于 
训练，一组用于测试。 

4.2 实验方法 

为了进行比较，本文实现了 Ma 论文中的2种 
方法： 乘积分布模型和马尔科夫分布模型。由于乘 
积分布模型比较适合特征出现在固定位置的情况， 
在变化比较复杂的广域网环境表现较差，本文没有 
把它的结果列在实验结果中。而马尔科夫过程模型 
比较适合文本类协议数据特征的描述，所以在实验 
中只与马尔科夫过程模型进行比较。 

TPCAD 方法分为2 部分： 聚类过程和特征提 
取过程。聚类过程对输入向量进行解析并合并相似 


的 Token 序列，可以用来进行流量分类。分类时， 
现将流量中的数据按照算法中的步骤解析成 Token 
序列，然后把这些 Token 序列与 Pattern 进行逐个比 
较，直到匹配为止。这样的分类方法在实验中叫作 
Pattern 方法。 Pattern 方法需要进行大量的解析和匹 
配操作，比较耗时。 

而特征提取过程从 Pattern 中发现其中的共同 
点并提取出来，这样可以简化特征的表示方法，提 
高匹配速度，但是会引入一定程度误差。 TPCAD 
方法最后会把特征转化为正则表达式形式，然后把 
这些正则表达式加入 L 7- filter , 通过 L 7 -filter 来验 
证本文算法的性能。为了比较2个方案的差别，本 
文同时测试了2个方案的性能。 

本文的评价指标包括机器学习领域常用的错 
误率、准确率和召回率，以及训练时间和识别匹配 
时间。首先介绍错误率、准确率和召回率的定义。 

设测试数据总量为况，如果将数据分为 J 与非 
A 2 类， 那么定义 如下： 

1 ) TP 表示3被正确识别为 X 的 总量； 

2) FN 表示 A 被错误识别为非3的 总量； 

3) FP 表示非 X 被错误识别为 X 的 总量； 

4) 77 V 表示非3被正确识别为非2的总量。 

记正确率为 ACC , 错误率为 ERR , 准确率为 

PREC , 召回率为尺仪:，那 么有： 


N 

ERR = 1 -ACC 


PREC = 


TP 

TP + FP 


TP + FN 

另外，训练时间指的是系统对训练数据开始进 
行训练到获得可用于网络流识别使用的协议特征 
为止所用的时间，而识别匹配时间指的是利用协议 
特征对所有测试数据进行识别匹配并获得识别结 
果所用的时间。 

错误率越低，准确率和召回率越高，训练时间 
和识别匹配时间越少，相应的流识别方法越好。 

4.3 实验结果 
4.3.1 错误率 

TPCAD 有着较低的错误率，与 Ma 方法相比也 
比较稳定。从图7中可以看出， Ma 方法在 HTTP 
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□ Pattern 

□ TPCAD 

□ MAW 


从前面的实验结果可以看出， Ma 方法对格式 
简单的协议效果比较好，在 SSH 协议上略微超出了 
TPCAD 方法。但是它对复杂格式协议的效果较差, 
而对于采取隐藏措施的协议则无法分类。另外 ， Ma 
方法对于其他类的协议效果较差，这显示出其对不 
同协议的适应能力较差。 

4.3.4 时间消耗 

在一台拥有 2.80 GHz Pentium ( R ) D CPU 和 1 G 内 
存的 PC 机上测试 TPCAD 和 Ma 方法，测试结果如 
图10所示。从图中可以看出， Ma 方法的训练过程十 
分耗时，这是由于马尔科夫过程模型的训练复杂度比 
较高。 Pattern 方法和 TPCAD 方法速度都比较快，但 
是 Pattern 方法的分类时间要高于 TPCAD 方法，这和 
我们的预期是一样的。根据实验， TPCAD 方法的分 
类速度是 Pattern 方法的7倍， TPCAD 方法在牺牲少 
量准确程度的前提下，大幅提高了分类速度。 



4.4 协议发现能力 

Ma 的方法和 TPCAD 是少数的可以自动发现新 
协议的流量分类算法。因此本文专门比较了 2个方法 
的协议发现能力。表1和表2是2个方法的协议发现 


特性，本文所采集的数据多数情况下仅含有会话中 
的一个流，因此本文方法的召回率很难超过50%, 
如图9所示。 



Others FTP Gnutella HTTP SMTP SSH 


图 8 准确率对比 


Others FTP Gnutella HTTP SMTP SSH 

图 7 错误率对比 

4.3.2 准确率 

除去 Gnutella 协议外， Ma 方法和 TPCAD 一样 
都有着不错的表现。但是 Ma 方法不能识别 Gnutella 
协议。这是因为 Gnutella 使用随机端口技术，而 Ma 
的预分类标准是服务器 IP 和端口，所以 Ma 方法不能 
划分出 Gnutella 流量并提取特征，如图8所示。 


上有着较高的错误率，而在其他几个协议上有着不 
错的表现。这主要是因为 Ma 方法对简单协议有着 
比较好的效果，而 HTTP 是一个比较复杂的协议。 
HTTP 协议有着众多的可选参数，这使得其在流量 
中的表现形式多种多样。不仅如此，大量的其他协 
议将自己的流量隐藏在 HTTP 协议之中，或者使用 
HTTP 的标准通信端口。这些都加剧了 HTTP 协议的 
复杂性,因此 Ma 方法所产生的转移矩阵会比较庞大 
和复杂。 Ma 在文献 [5] 指出，复杂的转移矩阵会引入 
错误，因此 Ma 的方法在复杂协议上的表现不好。 


4.3.3 召回率 

在召回率上， TPCAD 均好于 Ma 方法。但是在 
Gnutella 协议上 TPCAD 仅有不到40%的召回率。 
Gnutella 将自己的协议内容隐藏在 HTTP 协议之中， 
并且仅在一处出现明显的特征。因此在一个会话的2 
个流里只有一个流含有明显的特征，这对于所有流 
量分类方法来说都是一个挑战。由于互联网路由的 


□ Pattern 

□ TPCAD 

□ MAW 
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情况。表中的结果分为2部分，前面的整数表示流量 
被划分到多少个类中，后面的百分比表示被划分的流 
量所占的比例。从结果中可以看出， Ma 的方法把同 
一协议的流量划分到许多类中，并且对于复杂格式的 
协议类的数量很多。这是因为 Ma 采用服务器 IP 和 
端口作为预分类方法，而目前非标准端口的使用越来 
越多，这造成了 Ma 方法的预分类效果较差 。 TPCAD 
采用语义相似性作为分类标准，效果比较理想。不仅 
如此， TPCAD 还发现了一些 L 7- filter 不能识别的新 
协议，表2中的后3项是新发现的协议。 


表1 Ma 的方法的协议发现能力 


Product 

HTTP 

SMTP 

SSH 

FTP 

MSN 

Distribution 

417/15% 

26/20% 

19/80% 

12/65% 

2/25% 

Markov 

HTTP 

SMTP 

SSH 

FTP 

MSN 

Process 

308/10% 

26/10% 

9/40% 

8/60% 

2/25% 


表2 本文方法的协议发现能力 


TPCAD 

HTTP 

RTSP 

SMTP 

GNUTELLA 

SSH 

FTP 

2/95% 

1/95% 

1/95% 

3/40% 

1/95% 

2/95% 

IRC 

MSN 

SIP 

TSPVIEW 

P8NET 

ASX 

2/95% 

11/95% 

1/95% 

1 

1 

1 


5结束语 

流量分类问题作为信息安全领域一个重要的研 
究方向已经得到越来越多人的关注。而基于负载特征 
的流分类方法由于准确率高而得到了广泛的应用。但 
是目前负载特征的获取主要依靠手工分析。本文利用 
网络流量中文本内容的语义特征，将流量解析成 
Token 。 提出了一个在 Token 空间上的相似性比较方 
法，并据此对文本类的流量进行聚类。然后合并同一 
类的网络流量并提取出同类流量所共有的特征。实验 
表明，该方法对常见文本类协议拥有超过95%的准确 
率，并可以实现对流量的在线学习和分类。 
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□ □ 近年来，随着互联网的迅猛发展，越来越多的新型网络应用逐渐兴起，网络规模不断扩大，网络组成也越来越 
复杂。网络流量分类技术作为增强网络可控性的基础技术之一，不仅可以帮助网络运营商提供更好的服务质量，而且能 
够对网络进行有效的监督管理，确保网络安全。本文综述了网络流量分类领域的研究方法及研究成果，对这些传统方法 
进行比较，分别指出它们的优势和不足。并针对高速网络环境下的实时分类、加密流分类、精细化分类、协议动态变化 
时的分类等现实挑战，对相关研究进展进行阐述和分析。最后对未来的研究方向进行展望。 
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Research Progress and Prospects of Network Traffic Classification 
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Abstract In recent years, the number of applications and the scalability of the Internet have experienced a rapid 
improvement. As one of the basic technologies for enhancing network controllability, traffic classification can not only 
provide better QoS for ISPs, but also supervise and manage network effectively, which can ensure the security of the 
Internet. In this paper, we first review the methodology and achievements in the field of traffic classification by comparing 
these traditional methods, and pointing out their advantages and disadvantages. Then we explain and analyze the related 
research progress aiming at challenges in reality such as real-time classification in backbone network, encrypted traffic 
classification, fine-grained classification, and constantly changing protocols classification etc. Finally, we look into the 
future of our research. 


Keywords traffic classification; high-speed network; fine-grained; encryption; protocol obfuscation 

点迅速普及并发展壮大，传统的互联网业务己经无 
□ g 法满足人们的需求，越来越多的新型网络应用应运 

'」 — 而生。为了有效利用带宽，并提供更好的服务质量 

近年来， Internet 凭借其开放性、共享性等特 （quality of service , QoS ) ，需要网络能够针对 
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不同应用进行分类。另一方面， Internet 的开放性特 
点也意味着任何符合其技术标准的设备或软件都可以 
不受限制地接入互联网，导致了 Internet 的各类安全 
事件层出不穷，网络安全问题变得日益严重。 

为了解决当前互联网发展过程中面临的这些问 
题，在保障网络安全的同时提供更好的服务质量，就 
需要对网络进行有效的监督和管理，増强网络的可控 
性。网络流量分类技术作为增强网络可控性的基础技 
术之一，可以帮助研究人员了解网络上的流量分布， 
允许网络运营商 （internet service provider , 
ISP ) 优先一些重要的传输，并且阻止网络犯罪行为 
的发生。 

传统的网络流量分类方法对于传统网络应用具有 
很好的分类效果，然而，随着越来越多新型应用的兴 
起，该技术也面临着巨大的挑战。 例如： 许多应用程 
序使用了私有的应用层协议，用加密的方式保护其数 
据内容，还有一些应用使用不规则的非标准端口号 
等。同时，为了更好地分析用户行为，对网络提供及 
时有效的监督和管理，精细化的流量分类和实时的流 
量分类思想也显得尤为重要。 

本文主要介绍了流量分类研究的进展及面临的挑 
战，并提出了相关挑战的解决方案。全文内容安排 
如下： 第2部分介绍了流量分类的基本概念及评价指 
标； 第3部分介绍了流量分类研究的进展，并对其进 
行了 评述； 第4部分介绍了流量分类面临的挑战，对 
相关研究进展进行阐述和分析；最后，对流量分类技 
术进行了总结与展望。 

2 □□□□□□□□□□□□□ 

很多网络应用具有自身的特性，对于网络环境的 
需求也不尽相同，因此只有对网络流量进行及时准确 
的识别和分类，才能准确地为不同应用提供合适的网 
络环境，有效利用网络资源，为用户提供更好的服务 
质量。目前，对网络流量分类的研究很广泛，使用的 
方法也很多，但主要是基于以卞_个层 面的： 

(1) Packet _ level [1] 的流量分类：主要关注数 
据包 ( packet ) 的特征及其到达过程，如数据包大小 
分布、数据包到达时间间隔的分 布等； 

(2) Flow - level = ] 的流量分类：主要关注流 
( flow ) 的特征及其到达过程，可以为一个 TCP 连接 

或者一个 UDP 流。其中，流通常指一个由源 IP 地址、 
源端口、目的 IP 地址、目的端口、应用协议组成的五 


元组； 

(3) Stream - level [3] 的流量 分类： 主要关注主机 
对及它们之间的应用流量，通常指一个由源 IP 地址、 
目的 IP 地址、应用协议组成的三元组，适用于在一个 
更粗粒度上研究骨干网的长期流量统计特性。 

在上述三个层面的流量分类中，使用最广泛的是 
Flow - level 的流量分类。这种以流为单位分析网络中 
传输数据的方法，是分组交换网络发展的必然需求。 

流量分类的一个关键度量标准是某个分类技术 
或分类模型对未知数据对象进行分类的准确率。通 
常用于衡量分类准确率的评估标准，主要包括以下 
四个 方面： 

真正 (true positive , TP ) :表示被分类模型 
正确预测的正样本数，即属于类别 A 并被预测为类别 A 
的样本数。 

假负 (false negative , FN ) :表示被分类模型 
错误预测为负类的正样本数，即属于类别 A 但被预测 
为不属于类别 A 的样本数。 

假正 (false positive , FP ) :表示被分类模型 
错误预测为正类的负样本数，即不属于类别 A 但被预 
测为属于类别 A 的样本数。 

真负 （true negative , TN ) :表示被分类模型 
正确预测的负样本数，即不属于类别 A 并被预测为不 
属于类别 A 的样本数。 

此外，基于机器学习的分类方法通常采用另外两 
种度量标准对其分类结果进行评估，其定义 如下： 

召回率 ( recall ) : recall = TP /( TP + FN ) ,表示 
类别 A 中被正确预测的样本所占比例。 

精度 （ precision ) : precision = TP /( TP + FP ) , 
表示在所有被预测为类别 A 的样本中，真正属于类别 A 
的样本所占比例。 

目前，很多流量分类研究都使用流准确率或字节 
准确率作为其实验结果的度量标准，流准确率表示被 
正确分类的流所占的比例，而字节准确率则更关注被 
正确分类的流所携带的字节数。其中，准确率的定义 
如下： 

准确率 ( accuracy ) : accuracy : ( TP + TN ) / 
( TP + TN + FP + FN ) ,表示被分类模型正确预测的样本数 
在总样本中所占比例。 

3 □□□□□□□□□□□ 

对于网络流量进行分类的研究主要包括四 
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类: 基于端口号的分类方法、基于有效负载的分类方 
法、基于主机行为的分类方法，以及基于机器学习的 
分类方法。其中，每一类方法又有其不同的实现方 
法，如图1所示。 



图1流量分类的方法 


3.1 □□□□□□□□□□□□ 

传统的流分类方法依赖于对 TCP 或 UDP 数据包中端 
口号的分析，将熟知的端口号 （ IANA W 指定）进行映 
射来识别不同的应用类型。位于网络中的分类器只需 
要找到一次 TCP 连接中的 SYN 包，并从这个 SYN 包中找 
到目的端口号即可。 UDP 也使用类似的方法（尽管不 
像 TCP —样具有建立连接和连接状态维护的过程）。 

这种方法的实现原理简单，适用于高速网络上的 
实时流分类 [5] 。然而，它也具有一定限制。例如一些 
应用可能没有在 IANA 注册端口号，或者使用熟知端口 
号以外的端 U 。 尤其是随着 P 2 P 应用的出现，它采用 
动态分配端口的技术，使通过端口号映射的方法检测 
应用类型受到了阻碍。此外，对于 IP 层载荷的加密也 
使得无法获取端口号，致使该方法无法实施。 

2004年， Sen ® 等人对 Kazaa P 2 P 协议进行实验， 
测得默认的 P 2 P 端口号只占测试总流量的30%左右。 
2005年， Moore 和 Papagiannaki m 通过实验测得：使 
用官方的 IANA 列表进行基于端口号的分类，其准确率 
不超过70%。 Madhukar 和 Williamson ™ 证实了使用端 
口号分类的方法，对于他们实验时30%-70%的流量都 
无法识别。 


3-2 □□□□□□□□□□□□□ 

为了避免对端口号的过分依赖，提出了基于有效 
负载的分析方法。该方法通过分析包的有效负载是否 
包含已知应用的特殊签名进行流分类，具有较高的准 
确性。 Sen [6] 等人使用分析有效负载的方法对 P 2 P 流进 
行分类，有效降低了分类的假负率 （ FN ) 和假正率 
( FP ) 至实验总流量的5%。 

虽然该方法具有很高的分类准确率，但分析代价 
太大。为了降低计算代价，可将其与一些分析代价较 
低的分类方法结合使用，先过滤出一些很容易分析出 
的流量，以减少计算开销。 Moore 和 Papagiannaki m 
使用了一种端口号和有效负载相结合的技术来识别网 
络应用，实验测得69%的流可以通过端口号映射的方 
式被正确分类，在分析端口号的基础上分析流的前 
lkByte 信息可将分类准确率提高到79%，对于上述两 
种方式都无法分类的流，分析其负载的全部内容可将 
其正确分类，分类的准确率接近100%。 

基于有效负载的分类方法虽然避免了过分依赖端 
口号所带来的问题，但其自身也存在一定的限 制：它 
只能识别那些已知的非加密流量，而无法分类其他未 
知 流量； 它的流量识别过程更加复杂，并需要对应用 
协议语义的大规模信息保持更新，需要较高的处理和 
存储 能力； 此外，这种方法无法应用于私有协议或加 
密流量，而且直接分析应用层的内容会带来隐私侵犯 
和安全性等问题。 

33 □□□□□□□□□□□□□ 

为了弥补基于端口号和有效负载的流分类方法存 
在的缺陷，研究者提出一种基于主机行为的流分类方 
法，该方法通过分析主机在传输层的行为模式来进行 
流量分类，主要具有以下三个特 点： 

(1) 无需解读数据包的负载，因而不会涉及隐 
私侵犯的 问题； 

(2) 不需要知道与端口号相关的信息，因而不 
会被其误导； 

(3) 只需要在路由器上就能够获取到的 NetFlow 
信息，因而不需要额外的设备开销。 

2004年， Karagiannis [0] 等人提出了基于 P 2 P 流量 
的连接模式来识别 P 2 P 应用类型的方法。实验采用了 
两个主要的启发式来检测不同流的行为特征。第一个 
启发式检测同时使用 TCP 和 UDP 两种传输层协议进行数 
据传输的{源1?，目的 IP } 对，第二个启发式用于监控 
{ IP , port } 对的连接模式。该方法不仅可以有效识别 
99%的 P 2 P 流和超过95%的 P 2 P 字节，而且还可以识别基 


流量分类方法 
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于有效负载方法未能识别出的 P 2 P 流。 

2005年，在之前研究成果的基础上， 
Karagiannis [1 ° ] * 人又提出了一个新的基于主机传输 
层行为模式进行流分类的方法，并称之为 BLINC 。 该 
方法在社会层、功能层及应用层对主机行为进行分 
析。其中，社会层主要分析某一台主机在一定时间内 
与哪些其他主机进行通信，以及与某些特定主机进行 
通信的一批主机的集合；功能层主要分析一台特定主 
机在网络中是提供服务的一方、请求服务的一方，还 
是二者 兼有； 应用层将前两层分析后得到的信息和传 
输层端口信息结合起来推断原始应用的类型。使用该 
方法进行流量分类，可以识别出所有实验数据中80%- 
90%的流量，并且准确率超过95%。 

此外， Karagiannis 等人还提出了依赖于以往经 
验的启发式方法，即除了以上端口和 IP 等基本信息之 
外，还可以根据实际情况，利用一些数据流中的其 
他信息来改进 BLINC 方法，并提高其分类准确率（例 
如，无负载的数据流或失败的链接往往代表这个流是 
一次攻击或者是一个 P 2 P 用户在尝试连接一个已经断 
开网络的 IP 地址）。 

虽然这种基于主机行为的流分类方法在一定程度 
上改善了基于端口和负载方法存在的问题，但其自身 
也存在一定的限制： 

(1) 它无法识别一些特定应用的子类型，例如， 
它可以识别出 P 2 P 类型的流量，但却无法进一步识别是 
哪种 P 2 P 应用产生的 流量； 

(2) 该方法依赖于数据包首部中各个域之间的关 
系，因此当传输层首部被加密时，该方法无法 使用； 

(3) 当使用网络地址转换 （ NAT ) 时，只能通过 
服务器使用的不同端口号来区分，对分类准确率具有 
一定的 影响。 

3-4 □□□□□□□□□□□□□ 

随着流量分类需求的增大，一种基于流量的统计 
特征来识别应用的新方法被提出。这种方法潜在假设 
了对于某些类别的应用，网络层的统计特征（例如流 
持续时间的分布、包间隔时间和包长度等）是唯一 
的，可以用来将它与其他应用区分开 [11] 。由于对大规 
模数据集的分析需求，简单的统计特征方法已经无法 
满足需求，因此更加系统的机器学习技术被提出。 

机器学习的过程通常由两部分组成 [12] ，即分类模 
型的建立和分类。首先采用训练数据建立分类模型， 
然后基于该模型产生一个分类器，并对未知数据集进 
行分类。1994年，机器学习首次被用于入侵检测中的 


网络流量分类领域 [13] 。目前，用于流量分类的机器学 
习方法主要包括无监督方法和有监督方法，此外还有 
将这两种方法相结合而产生的半监督方法。 

3.4.1 无监督机器学习方法 

无监督机器学习方法即聚类方法，它使用内在的 
启发式来发现数据中存在的族 [14] 。同一个簇中的对象 
彼此相似，不同簇中的对象彼此相异。该方法通过发 
现和标记数据集中的蔟来构造分类器，分类过程主要 
包括两部分，即评估一个对象与哪个簇具有更大的相 
似性，以及标记对象所属族的类别 [15] 。其分类过程如 
图2所示。 



图2基于无监督机器学习的流量分类过程 
2004年， McGregor [16] 等人以包长、包间隔时间、 
流持续时间等作为统计特征，利用 EM (期望最大化） 
算法 [17] ，通过无监督学习的方式将流量按其类型（如 
批量传输、小规模传输等）进行了分类。 

2 0 0 5年 ， Zander [18] 等人采用了一种 
AutoClass [19] 方法， AutoClass 是一个无监督的贝叶 
斯分类器，使用 EM 算法决定数据对象应该属于最优 
簇。该方法使用 NetMate ™ 工具计算流的特征值，并 
采用 SFS (sequential forward selection ) 方法选 
择较优的属性集。实验将获取的流统计数据传给分 
类器进行学习，学习和分类的结果再作为下一次分 
类的评估标准。机器学习的时间越长，则分类准确 
性越高，一旦达到某个标准，就可以对后续的输入 
数据流自动分类 [5] 。 

2007年， Erman [21] 等人提出了针对网络核心流量 
分类的解决方案，在网络核心的入口点和出口点按照 
流量类别（如 Web ， P 2 P ， FTP 等）来识别和区分网络 
流量。实验采用了 K - Means 算法，以平均包长、流持 
续时间、平均包间隔时间等作为特征值，并取得了较 
好的实验效果，对服务器到客户端的单向流量识别的 
流准确率达到了 95%。 

目前比较常用的聚类算法有很多，它们在聚类 


? 1994-20 14 China Academic Journal Electronic Publishing House . All rights reserved , http :// www . cnki.net 












36 


集 成技术 


2012年 


网络数据 

~^T~ 

流统计特 
征处理 


流量统计特 
征计算过程 


训练过程 


分类过程 


分类结果 
输出过程 


图4基于有监督机器学习的流量分类过程 


是通过某对象的先验概率，利用贝叶斯公式计算出其 
后验概率，选择具有最大后验概率的类作为该对象所 
属的类。目前研究较多的贝叶斯分类器主要有 Naive 
Bayes 、 TAN 、 BAN 和 GBN 。 Moore [28 ] 等人使用简单的朴 
素贝叶斯技术进行流量分类的准确率约为65%，而使 
用基于核密度估计的朴素贝叶斯 ( NBKE ) 和基于快速相 
关过滤器的朴素贝叶斯 ( FCBF ) 降低了特征空间维度， 
大大提高了分类准确率，使准确率超过了95%。 

支持向量机 (support vector machine , SVM ) 
是 Corinna Cortes [29] 等人于 1995 年首先提出的，该 
方法利用非线性变换和结构风险最小化原则将流量分 
类问题转化为二次寻优问题，具有良好的分类准确率 
和稳定性，其网络流属性不必满足条件独立假设 ，无 
需进行属性过滤，并能够在先验知识相对不足的情况 
下，仍保持较高的分类准确率，不依赖于样本空间的 
分布，具有较好的分类稳定性 [3 ° ] 。 Zhu Li [31] 等人在 
19种流量特征中选择了对分类影响最大的9种作为特 
征值，利用 SVM 技术将网络流量分成了 Bulk traffic , 
Interactive , WWW , Service , P 2 P , Mail , Other 七 
类，得到了95%以上的准确率。 

神经网络 （neural networks ) 是一种模仿动物 
神经网络行为特征，进行分布式并行信息处理算法的 
数学模型。这种网络依靠系统的复杂程度，通过调整 
内部大量节点之间相互连接的关系，从而达到处理信 
息的目的，具有自学习和自适应的能力。 Auld [32] 等人 
通过246个统计特征，利用贝叶斯神经网络的技术进 
行流分类，获得了比朴素贝叶斯方法更高的准确率。 
用同一天的网络流量作为训练数据和测试数据时，分 
类准确率为99%。用相隔八个月的网络流量作为训练 
数据和测试数据时，分类准确率也达到了95%。 

遗传算法是一种借鉴生物进化规律演化而来的随 
机化搜索方法，依据“适者生存，优胜劣汰”的遗传 
机制，自适应地调整搜索方向，而不需要确定的规 
则。2006年， Park [33] 等人提出了一种基于遗传算法的 
特征选取技术，实验采用了决策树的方法，利用流的 



速度、聚类效果等方面具有各自的特点。2006年， 
Erman [22] 等人比较了 K - Means 、 DBSCAN [ 23 ] ( density - 
based spatial clustering of applications with 
noise ) 和 AutoClass 这三种聚类算法。 K - Means 算法 
是一个划分算法， DBSCAN 算法是一个基于密度的方 
法，而 AutoClass 则是一个基于概率模型的算法。实 
验结果显示， K - Means 和 DBSCAN 比 AutoClass 的聚类速 
度更快，但 AutoClass 算法的准确率最高， DBSCAN 算 
法在一个聚类的小的子集中包含了大多数的连接，具 
有最好的聚类效果，而 K - Means 虽然在准确率方面不 
及 AutoClass , 但其聚类速度却相当快。 

3.4.2 有监督机器学习方法 

有监督机器学习方法即分类方法，主要根据已标 
记样本的特点构造分类规则或分类器，将未知类别的 
样本映射到给定类别中的一个。机器学习过程的输入 
为一些已经分好类的样本实体的集合，输出为通过这 
些样本产生的一个分类模型。 

用于训练和测试的数据需要具有相同的特征集，并 
且被标记好所属类别，数据的标准格式如图3所示 [24] 。 
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特征 i 

特征 2 


特征 n 

类别 

1 

X 

XX 


XXX 

1 

2 

X 

XX 


XXX 

1 







m 

X 

XX 


XXX 

0 


图3数据集的标准格式 

有监督机器学习的工作过程如图4所示，它主要包括 
两个 过程： 

(1) 训练 过程： 根据提供的训练数据集构造一 
个分类模型。 

(2) 分类 过程： 利用训练过程中产生的分类模 
型对未知类别的样本进行分类。 

目前，分类模型的构造方法主要包括决策树、朴 
素贝叶斯、支持向量机、关联规则学习、神经网络、 
遗传算法等。 

1998年， Murthy [25] 为机器学习领域的研究人员 
提供了关于决策树的一个概述。决策树是一个预测模 
型，它代表了对象属性与对象之间的一种映射关系。 
树中的每个节点表示对象的某个特征，每个分叉路径 
则代表某种可能的属性值，每个叶节点代表所属类 
别。每个实体从根节点开始，根据其特征值分类。决 
策树的代表方法有 ID 3 [26] 、 C 4. 5 [27] 等。 

贝叶斯网络是一个带有概率注释的有向无环图， 
贝叶斯分类器是用于分类的贝叶斯网络，其分类原理 
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前10个包的统计特征，将 J 48 和 REPTree 这两种基于决 
策树的分类器和基于朴素贝叶斯的 NBKE 分类器进行了 
比较，结果显示两个基于决策树的分类器具有更高的 
准确率。 

有监督的学习算法很多，每种方法都有其特点， 
需要根据实际应用环境的不同，选择合适的算法，才 
能达到更好的效果。 Williarn S [34] 等人从分类准确率 
和计算性能（分类模型建立时间、分类速度）这两方 
面，对朴素贝叶斯（包括 NBD 和 NBK ) 、 C 4. 5决策树、 
贝叶斯网络、贝叶斯树这五种机器学习算法进行了比 
较。实验结果显示，几种分类算法在分类准确率方面 
差别并不大，但在计算性能方面却相差很多。 C 4.5 决 
策树算法的速度最快，而 NBK 的速度最慢。贝叶斯树 
构造分类模型所需时间远远超过了其他几种算法，而 
NBK 建立分类模型的速度最快。文中还表明，对于大 
多数分类算法，减少特征值的个数可以有效提高算法 
的计算性能，提高其分类速度。 

3.4.3 半监督机器学习方法 

由于被标记的样本集并不容易获得，因此通常用 
于机器学习的训练样本数量不够广泛，无法较好的反 
映出各类别流量的特征。而且随着互联网的迅速发 
展，新的网络应用不断出现，这些新应用的特征无法 
提前预测，传统的有监督机器学习方法也无法对这些 


未知流量进行分类。为解决这些问题，出现了一种半 
监督机器学习方法，该方法是有监督和无监督两种方 
法的结合。 

半监督机器学习方法的训练集由已标记样本和未 
标记样本两部分组成。首先，通过聚类算法将训练集 
分成不同的族，然后通过被标记的流实现族与类别之 
间的映射，那些不包含任何标记流的簇就被视为未知 
的新应用类型。 Erman [35] 等人较早的将半监督机器学习 
方法应用于流量分类领域，其训练集包含了少量标记 
流样本和大量未标记的流样本，实验证实该方法具有 
较好的准确率，并且可以识别未知应用流量和改变了 
行为模式的已知应用流量。2011年 ， Xiang 1^ [36] 等人 
使用了一种半监督的 SVM 方法进行流量分类，该方法只 
需少量的标记流，并且分类准确率高，计算代价低。 

半监督学习方法只需利用少量标注样本和大量未 
标注样本即可实现分类，可以有效减少标注代价，提 
高机器学习的性能，但它对于有噪声干扰样本数据的 
分类效果并不理想，而且由于它提出的时间比较短， 
其应用价值还需要更多的深入研究。 

3-5 □□□□□□□□□ 

前面的几节主要介绍了四种流量分类技术，并结 
合一些已有的实验及成果对其进行了评述。下面将从 
分类准确性、适应场景、优缺点等方面对这几种流量 


□ !□□□□□□□□□ 


分类方法 

基于端口号的流量分类方法 

基于有效负载的流 
量分类方法 

基于主机行为的流 
量分类方法 

基于机器学习的流 
量分类方法 

准确性 

低 

极高 

较高 

较高 

使用场景 

较简单的网络流量结构，使用 
1 ANA 中注册端口号的传统网 
络应用。 

数据包内容为明文 
的流量分类与识别 

大流量的骨干网络 
中（汇聚的行为主机 
越多，流量识别准确 
率越高） 

传统及新兴的网络 
应用，其他几种方法 
无法应对的场景。 

优点 

技术简单、易操作、计算开销 
较低，分类速度快。 

分类准确率很高，并 
且可以对 P 2 P 等新型 
网络应用进行准确 
的分析。 

能够对加密数据流 
量进行分析，开销较 
低、容易实施。 

准确率较高、可扩展 
性强，能够对加密数 
据流量进行分析。 

缺点 

若网络应用没有使用 IANA 
中注册的端口号，或者使用动 
态端口，则无法使用该方法。 

计算开销太大，涉及 
到隐私侵犯问题，并 
且无法解决私有协 
议及加密流量的分 
析问题。 

无法识别一些特定 
应用的子类型，当传 
输层数据被加密时 
无法使用。 

耗费资源较多，需要 
事先了解数据样本 
集，应用于在线环境 
具有一定困难。 

单独使用时对高速网 
络流量分类的适用性 

不适合单独使用 

适用范围有限 

比较适用，但需其他 
方法配合使用 

不太实用，处于实验 
阶段 

单独使用时是否适用 
于加密流量分类 

否 

否 

是 

是 

单独使用时是否适用 
于精细化流量分类 

否 

是 

是 

是 

单独使用时是否适用 
于动态变化协议的流 
量分类 

否 

否 

处于试验阶段 

处于试验阶段 
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分类技术做一个比较，如表1所示。 

4 □□□□□□□□□□□□□□ 

随着网络的迅速发展，一些新的网络应用不断涌 
现，网络规模不断扩大，应用类型纷繁复杂，不同应 
用的流量也呈现了不同的特征，并处于一种动态变化 
的过程，这给流量分类领域带来了巨大的挑战。 

4.1 □□□□□□□□□□□□□□ 

目前针对校园网等环境下的流量分类技术有较多 
研究，但对骨干网环境下的流量分类研究较少。 

骨干网环境中的流量特征与接入网环境存在较大 
差异，且其吞吐量较高（单光纤可接近 lOGbps ) ，这 
就对流量分类技术提出了更高的要求，即不仅要保证 
较高的识别准确率，而且要减少分类需要的代价，及 
早进行分类判定（如数据流只流经几个包就能得出分 
类结果），尽可能提高分类速度和性能。 

从当前流分类领域的研究成果来看，大多数的研 
究工作都围绕提高流量分类的准确率展开，虽然这些 
分类技术都宣称能达到较好的分类效果，但大多都是 
在小规模实验环境下的测试结果，若将其应用在高速 
网络环境中，分类效果并不尽如人意。 

另外，在高速网络环境流量分类中，对流量分类 
效果评价指标的侧重点也可能与小规模网络环境有所 
不同，网络管理者可能更关注于某一类流量是否都被 
识别出来，即首要关注特定流量的实时检全率或实时 
漏检率，其次才关注误检率，这种需求也使得很多传 
统的分类技术在此情况下难以适用。 

传统的基于端口号的流量分类方法所需代价小且 
速度快，很适合高速网络环境对分类性能的需求，但 
它只能识别出一些熟知端口的应用，无法应对很多其 
他应用，因此无法满足骨干网环境下的分类要求。基 
于有效负载主机行为的分类方法虽然弥补了基于端口 
号分类方法的不足，但其分类代价大、消耗资源多， 
也无法满足实时高速网络环境的分类要求。基于机器 
学习的分类方法由于需要进行大量的统计分析，目前 
难以适应高速网络环境中的流量实时分类，相关研究 
成果还处于实验阶段。基于主机行为的分类方法虽然 
在分类效果方面存在一定局限，但它消耗资源较少， 
并且识别的准确率也要优于基于端口号的方法，因此 
很适合应用于高速网络环境下。 

目前在这一领域的研究较少，但其应用价值却很 
大，因此在这方面还有很大的研究空间，值得进一步 


的研究和探索。 

4-2 □□□□□□ 

随着网络资源和带宽的逐渐完善，用户更注意保 
护隐私，加密应用被广泛使用，加密流分类成为流量 
分类中的挑战性问题之一。 

传统的基于熟知端口号的流分类方法在大多应用 
端口随机可变和端口共用情况下已经失效，而基于有 
效负载的流分类方法对加密流量也束手无策，并且存 
在隐私侵犯的问题，耗费资源较大。 

2006年以来，在流量分类领域，对加密流的分类 
问题成为一个重要的研究方面，大多数研究都采用了 
基于流特征的统计识别方法。目前研究的加密流量主 
要包括四类典型 流量： SSH 隧道、 IPSEC 隧道、 SSL , 
以及 P 2 P 的加密流量。其中，对于 SSH 的研究较多， 
主要侧重于对 SSH 隧道中的应用进行有效的分类识 
别，使用的方法基本都是基于流特征的识别，主要使 
用机器学习的方法，例如朴素贝叶斯、 C 4.5 决策树、 
SVM 、 k - means 、 k-nearest neighbor 等算法，还有 
基于高斯混合模型 (Gaussian mixture models ) 、 
隐马尔可夫模型 (hidden Markov model , HMM ) 和 
最大似然分类等，另外还有使用基于主机行为的分类 
方法 [37] ,主要基于协议连接模型，通过源 IP 、 目的 
IP 和连接特征等特征值来识别，但这种方法自身具有 
一定局限性，且不容易达到高精确度，因此研究者一 
般较少使用。 

对于 SSL 和 SSH 流量的分类通常分为两步 [38][39] ， 
第一步根据协议自身特性（如协议首部特定字节的特 
征或密钥交换特征等）识别出 SSL 或 SSH 流量，第二步 
对加密隧道中的不同应用数据流进行分类。 Dusi [40] 
等人使用高斯混合模型 （ GMM ) 和支持向量机 ( SVM ) 
技术，对运行在 SSH 隧道中的应用（假设同一时刻 SSH 
隧道中只有一种应用）进行分类（包括 HTTP 、 POP 3、 
P 0 P 3 S 、 EMULE 、 unknown ) 。实验选取包长度和数据 
包方向（服务器到客户端或客户端到服务器）作为特 
征值，结果显示两种分类方法对 POP 3 和 P 0 P 3 S 类的应 
用识别效果最好，真正率均超过了 98%, GMM 对 HTTP 应 
用的识别准确率高于 SVM , 对 EMULE 的识别准确率则低 
于 SVM 。 

一些研究者对多种分类方法进行比较，并通过 
实验提取出用于识别加密流量的一般性流特征。2007 
年， Alsh a mmari [41] 等人使用了两种有监督的机器学习 
算法 AdaBoost 和 PIPPER 识别网络中的 SSH 流量，并进一 
步对 SSH 应用类型（如 ssh ， scp , sftp , tunnel 等）进 
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行分类，通过两种方法的对比， PIPPER 的分类效果要 
优于 AdaBoost , 其准确率达到99%，假正率为 0. 7%。 
实验同时说明了，通过基于流统计特征的方法，而不 
使用 IP 地址、端口、有效载荷等信息对 SSH 流量进行 
精确识别是可行的。之后， Alsh a mmari t42] 等人又对以 
SSH 和 Skype 为代表的加密流量进行了进一步的研究， 
并使用五种机器学习算法 （ AdaBoost 、 SVM 、 朴素贝叶 
斯、 RIPPER 、 C 4. 5决策树）进行对比，对比结果显示 
基于 C 4. 5决策树的分类器的分类效果最好。 

单独的一种分类方法通常在某方面有优势，但 
不可避免的在另一方面存在劣势，为了获得更好的 
分类效果，一些研究者使用了一种或多种分类方法 
结合的技术进行研究。 Ba r - Y an ai [43] * 人提出了一种 
实时的加密流量分类方法，将 k - means 和 k-nearest 
neighbor 两种分类器相结合，使用17个流特征，分析 
每个流的前100个包的统计信息，并进行分类。传统 
的 k-nearest neighbor 分类算法分类准确率高，但分 
类速度慢，而 k - means 算法则相反。实验将两种分类 
器相结合，分类速度快、分类准确率高，比使用单独 
一种分类算法的效果要好很多。 

SSH 隧道下可承载很多类型的应用，虽然识别隧 
道应用的存在并不困难，但要识别出隧道中的具体应 
用类型就有很大挑战。 T an [44] * 人提出了一种利用最 
大似然分类器对 SSH 隧道中的应用进行分类的方法， 
该方法首先需要识别出 SSH Tunnel 流的建立边界，然 
后丢弃该边界之前的数据包，只需要分析该边界之后 
的连续 L 个数据包的统计信息，对 SSH 隧道中的 HTTP 、 
POP 3、 FTP 、 SMTP 四种类型的应用进行分类，分类的 
真正率为90%左右。 

为了提供更好的网络服务质量，需要及时识别出 
网络中的延迟敏感应用（如 VoIP 、 音视频等），并为 
其提供高优先级。这些应用通常使用非标准端口号， 
并且其数据被加密，或者被放入加密隧道中执行。 
nidirim [45] 等人以包长作为特征值，采用了机器学习 
的方法对 IPSec 隧道中的 VoIP 和非 VoIP 流量进行了分 
类，并通过对比实验证实了及时识别出 VoIP 应用并给 
予其高优先级对于提高 QoS 的重要性。 

对 P 2 P 应用（如 BT 、 Emule 、 Skype 等）进行分类 
的挑战主要集中于数据加密和混淆协议，目前使用较 
多的方法是基于流特征的统计识别方法，也有一些研 
究使用了有效负载和流特征相结合的方法，他们使 
用的有效负载往往是一个连接的前几个包的靠前数 
据，也是用于统计特征，而不是直接把某个特定字节 


串作为分类依据。 Hjelmvik [46] 等人全面展示了利用 
统计分析和统计协议识别 (statistical protocol 
identification , SPID ) 算法对混淆协议进行分类 
的有效性，并通过实验总结出了对一些特定模糊协 
议（包括 BT 的 MSE 、 eDonkey 的模糊协议、 Skype 、 
Spot if y ) 进行分类的最有效统计属性。 

总的说来，加密流量分类是流量分类中最具挑战 
性的问题之一，目前的主要研究思路主要集中在各种 
行为特征提取及统计分析的方法上。我们认为，基于 
主机行为的关联分类方法，辅以主动验证等其它的技 
术手段，也是较好的研究思路之一。 

4-3 □□□□□□□ 

目前，在流分类领域中的大部分研究都关注对网 
络协议和应用的分类。很多研究者都使用已有分类方 
法的变种，或者将多种分类方法相结合的技术，改善 
之前研究的分类效率及准确率。然而，随着网络的迅 
速发展，网络流量的规模逐渐扩大，流量特征也越来 
越复杂，因此很难找到一种准确率达到100%的流分类 
方法。相比于改善已有分类算法，使其准确率提高 
1%-2%来说，在一个新的分类层次研究流分类问题显 
得更加有意义 t47] 。 

精细化流分类是一种新的分类思想，指在细粒度 
的层次上对网络流量进行分类，比如对某个特定协议 
上承载的应用类型进行分类，或者对某个特定应用中 
的不同功能模块进行分类。这种精细化的流分类思想 
可以帮助研究者更好地分析网络流量的组成，了解用 
户行为，以便提供更好的网络服务质量。 

2008年， Li [48] 等人使用了基于有效负载的方法， 
对 HTTP 流量按其应用目的（如网页浏览、 web 应用、 
爬虫、文件 下载、 广告、 WebmaiK 多媒体等）进行 
了细粒度的分类。实验发现， HTTP 中的非 web 浏览应 
用在 HTTP 流量中占有相当比例，利用 web 收发邮件、 
下载文件等应用被广泛使用，约占 HTTP 流量的一半。 

还有一些研究者对同一种类的应用类型进行了 
细粒度的分类。2009年， Valenti ^ 等人使用了 SVM 
的方法，以特定的一段较短时间内双方交换的包数 
作为特征，对 P 2 P - TV 应用进行细粒度的分类，将其 
分为 PPlive 、 SopCast 、 TVAnts 和 Joost 四类。该方 
法在最坏情况下的识别率也达到81%以上。2011年， 
Archibald ™ 等人通过 SVM 的方法，消除了 http 的模糊 
性，实现了对 http 协议下应用的细粒度分类。他们使 
用了统计和谱分析的特征提取方法，选择包长度和包 
间隔作为分类的特征值，对基于 http 的三种典型应用 
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facebook 、 gmail 、 youtube 进行了分类，分类准确率 
达到93%。 

精细化的流分类思想对分析用户行为也有很大的 
积极作用。2009年， BonHglio ™ 等人采用了主动和 
被动的技术对 Skype 流量进行深入的分析，通过分析 
比特率、包间隔时间、包大小等特征值来区分语音和 
视频通话产生的流量特征。他们通过不同地区在通话 
期间的单位时间内产生的流量规模对用户行为进行了 
分析，并惊奇地发现通话时长与所在地的关税政策有 
所关联。2011年， Park 47 等人通过使用基于文本检索 
技术和多签名的流量分类器，将应用按其不同功能模 
块（如登陆、下载、浏览等）进行分类。实验中主要 
针对两种 P 2 P 应用 Fileguri 和 BitTorrent 进行细粒度 
分类。该分类思想能够帮助相关人员更好地分析网络 
组成和用户行为。 

目前针对精细化分类的研究较少，但随着相关需 
求的增加，我们认为，精细化分类是未来网络流量分 
类的重要发展方向之一。 

4-4 □□□□□□□□□□□□ 

当前针对各种网络流量分类的研究，基本都集中 
已有流量的分类问题上。但从流量分类在信息安全及 
网络管理的总体技术架构中所处的位置看，流量分类 
的结果必然伴随着相关网络管理手段的实施。例如， 
某些电信运营商可能为维护话务量，采用技术手段 
对 Skype 流量进行检测、分类，并对这些流量进行管 
理，为防止网络流量被识别， Skype 可能会频繁发布 
新版本，且不断调整其网络流量的外显行为特征，即 
Skype 的网络协议出现了动态变化，在此情况下，原 
来的流量分类方法可能失效。 

在上述例子中， Skype 的流量出现了新的变化。 
而在其他情况下，某类网络应用的流量不光出现新 
的变化，还可能进行流量混淆，如2012年2月 ， TOR 
(the onion router , 最典型的匿名通信网络）推出 
obfsproxy (obfuscated proxy ) 模糊代理软件，据 
称该软件将让 SSL 或 TLS 加密流量看起来像未加密的 
HTTP 或即时通讯流量。 

目前，针对此类协议动态变化时的流量分类技术 
的研究还未有效展开，我们认为这是未来网络流量分 
类的可能发展方向之一。 

5 □□□□□□□□□ 

网络流量分类是信息安全领域的经典问题。各类 


新型网络应用的不断涌现，使得该问题一直为研究者 
持续关注。 

本文综述了网络流量分类领域的研究方法及研究 
成果，对基于端口号的分类方法、基于有效负载的分 
类方法、基于主机行为的分类方法，以及基于机器学 
习的分类方法进行比较，分别指出它们的优势和不 
足，及适用的场景。 

本文还分析了流量分类面临的四大挑战与技术 
手段。 

高速网络环境中的流量实时分类成果较少，应用 
价值很大，在这方面还有很大的研究空间。基于机器 
学习的分类方法由于需要进行大量的统计分析，目前 
难以适应高速网络环境中的流量实时分类，相关研究 
成果还处于实验阶段。基于主机行为的分类方法消耗 
资源较少，较适合应用于高速网络环境下，值得进一 
步探索。 

加密流量分类是流量分类中最具挑战性的问题之 
一，目前的主要研究思路主要集中在各种行为特征提 
取及统计分析的方法上。基于主机行为的关联分类方 
法，辅以主动验证等其它的技术手段，可能是较好的 
研究思路之一。 

精细化流分类能在细粒度的层次上对网络流量进 
行分类，有助于对网络的精细化管理。目前对它的研 
究较少，但随着相关需求的增加，精细化分类是未来 
网络流量分类的重要发展方向之一。 

针对网络协议动态变化时的流量分类技术的研 
究还未有效展开，这可能是未来网络流量分类的方 
向之一。 
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网络视频内容的识别和过滤综述 
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摘 要：随 着网络视频的迅猛发展和广泛使用，网络不良视频的识别和过滤日益重要。通过对图像内容识别与过滤、视频结 
构分析与检索两个领域技术发展的分析，阐述了一种综合利用视频时域分割、关键帧提取、图像内容识别及皮肤检测等视 
频分析方面关键技术的解决方法 • 该方法简单，并且容易 实现. 此外，介绍了目前网络视频内容识别和过滤的研究现状和主 
要应用，分析了其面对的主要问题及未来发展趋势。 

关键词 ：时域分割；关键帧提取；图像内容识别；皮肤检测；视频内容识别和过滤 
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Survey on recognition and filtering of network video content 

PENGLe 1 , XUEYi-bo 2 , WANG Chun-lu 1 

(1. School of Computer Science and Technology, Beijing University of Posts and Telecommunications, Beijing 100876, 
China; 2. Research Institute of Information Science and Technology, Tsinghua University, Beijing 100084, China) 


Abstract: With the rapid development and extensive use of network video, it is important for recognizing and filtering objectionable 
video. By analyzing the development of related fields，such as image content recognition and filtering, and content-based video analysis 
and retrieval, one solution is proposed in works which is based on the key technologies of video temporal segmentation, key frame ex¬ 
traction, image content recognition, and skin detection. Otherwise it is simple to understand and easy to be implemented. Then, the 
current research status and the main applications of the recognition and filtering of video content of network are presented. Finally, its 
main challenges and future trends are analyzed and given. 

Key words ： video temporal segmentation; key frame extraction; image content recognition; skin detection; video content recognition 
and filtering 


0 引言 

网络技术和应用迅猛发展，大量的不良视频图像在网上 
传播，极大地危害了社会的稳定和人们的身心 健康。 网络内 
容的识别与过滤逐渐被各个国家重视。 1998 年美国通过了 
“Child Online Protection Act”(COPA) 法案，开始加强对网络内容 
监控与过滤。我国各部委也正积极合作打造网络视频管理新 
规范，大力支持这方面的研究工作。 

当前针对网络信息分析和过滤技术主要有静态 IP 地址 
( 或 URL 访问控制列表)过滤技术和动态网络内容分析识别的 
过滤技术。前者较常用，虽对不良网站封堵起到了一定作用， 
但对于一些不良网站的网址动态变化却无能为力。伴随着即 
时通讯、点对点 P2P 技术、 CDN ( 内容分发网 ) 的发展，网络内容 
曰益丰富和复杂，急需对动态不良信息进行有效识别和过滤， 
不良信息的形式包括文本、图片、视频等。本文着重讨论网络 
视频内容的识别和过滤技术。 


1概述 

网络视频内容识别与过滤主要基于网络图像内容分析与 
过滤、视频结构分析与内容检索两个研究领域取得的丰厚成 
果，需要把视频看成一种特殊的文档，像文档分析一样把视频 
在时域和空域中进行分解，抽取出能够表述视频序列的特征 
描述子，并且获得各个特征之间的联系，从而为整个视频序列 
建立某种摘要性的表示 ' 判别其内容性质和决定是否过滤。 

网络图像内容分析与过滤是从对静态图检验开始的。研 
究人员早期借助于颜色直方图技术对图像进行特征分析，接 
着将色彩空间量化完善了该技术。 20 世纪 90 年代以来 , David 
Forsyth 和 Margaret M, Fleck 0 * 】 等研究人员将纹理、形状和空间 
关系等视觉技术加入到对人体皮肤检测技术中去，逐步形成 
了针对特定图像 ( 如色情图像 ) 内容识别的方法，也推出了一系 
列比较实用的系统。与此同时，研究者在视频结构分析与内 
容检索领域 , 尤其是视频结构分解、特征分析和视频总结等方 
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面取得了积极进展。1995年 A. Nagasaki 1 等提出了视频分段 
方法，早期的分段方法将视频分为一些独立的图像，用较为简 
.单低级的视觉特征描述视频内容。现在逐步发展成了能对镜 
头的切变、渐变(淡入淡出，溶解划变)进行分析，对压缩和非 
压缩进行不同处理的技术。在分段基础上，内容识别问题解 
决的好坏还依赖于关键帧的选取，这个视频特征分析和视频 
总结的重要环节。关键帧总结 ra 也就是在镜头内选取特定数 
量静态帧，作为整个内容的代表,从而充分利用静止图像分析 
技术的成果，支持基于内容的视频检索、分析过滤。网络图像 
内容分析与过滤、视频结构分析与内容检索两个领域的发展 
促进了网络视频内容识别和过滤的出现，并为之奠定了良好 
的基础。 

2关键技术 

2.1 视频时域分割 

视频是有结构层次的，这种层次体现在分段管理和帧之 
间的时间顺序上。它由一系列场景组成，一个场景有若干个 
镜头，一个镜头又包含多个图 像帧- 对视频结构进行分析，重 
点在于检测其时域边界，从中识别并抽取出有意义且具一定 
代表性的视频内容序列，并根据规则库决定是否需要过滤。视 
频编辑主要以镜头为单位，进行时域分割时必须研究镜头间 
的过渡关系、转换方式，主要对象包括镜头切变和渐变。 

切变是视频主要的镜头编辑方式，前景背景不同，视觉特 
征(如颜色、区域形状、纹理等)也存在突变，直接导致其描述 
直方图、帧间绝对差值、图像边缘等特征描述信息有较大变 
化。基于这些描述信息，研究人员容易想到设置一定阈值进 
行比较 判定。 切变识别的关键转换为阈值的选择。 阈 值的选 
择包括最早的固定全局阈值的方式和采用滑动窗口机制的自 
适应阈值算法，之后又在自适应 阈值算 法中添加了髙斯分布 
假设理论。近年来，研究者又提出了用统计检测的新算法，即 
为了达到统计意义上的最优性能，利用镜头长度统计分布来 
进行假设检验，将阈值的确定问题转化为检验误差的最小化 
问题 M 。 网络中压缩视频的切变检测需要基于部分解码得到 
的合理特征量，其与非压缩的主要区别在于运用时空冗余信 
息解码得到的运动预测和变换空间信息来设计算法，两者在 
总体检测策略上无本质区别。 

区别于切变，渐变出现概率相对较小且特征变化缓慢 ，其 
镜头切换方式以逐步替换的划变和淡入淡出的溶解二者为代 
表。因此，可针对一个时间段内视频特定度量指标的变化规 
律建立模型，使用模型检 测法气 例如利用渐变中的淡入淡出 
有 明显的亮度增减进行检测，又如利用像素点在时域上的方 
差来实现对溶解的检测等。此外,还有通过建立大小两阈值， 
边跟踪帧差边累计帧差,实现溶解检测的双阈值法。 

2 . 2 关键帧选取 

关键帧的选取是在视频中各个镜头内挑选出具有代表性 
的静态图像，作为视频内容分析的主要对象，它既是前面视频 
时域分割的目的之一，是连接静态图片识别处理方法的桥 
梁，具有重大 意义。 关键帧的选取至少需符合两个基本 条件： 
代表性和简单性。代表性要求反映视频主要内容，保有可复 
现的重要 细节; 简单性要求信息冗余小，能降低检测计算的复 


杂度。 

最早也是最简单的关键帧选取方法是选取固定帧，其中 
包括首帧提取、固定位置选取和随机采样等。这种方法可以 
应用在一些简单的视频内容识别和过滤的系统中，如视频聊 
天监控。但这种方法有明显的不足，即不一定是带有重要信 
息的帧，缺乏一定的代表性。 

为此人们提出了镜头内动态和镜头间聚类这两种算法。 
前者的代表算法有运动极小值算法 M ，将关键帧设在每个镜头 
运动曲线的极小点，这也就导致其过于依赖局部信息，没考虑 
动态累加的权重问题。为更好地运用镜头内的动态信息，研 
究人员又提出了无监督聚类自适应法™，通过颜色直方图等作 
为帧间距离相似性度量，将镜头划分为若干子类，在每个子类 
中据帧间距离选取质心最近者为代表帧。此外还有二次扫描 
的率驱动算法 ra 。 镜头间聚类法是基于每个镜头内选好的代 
表帧做聚类,再在每个聚类中选取相关性最小的帧做关键帧。 
例如将时间约束引入关键帧选取 B1 ，选取的关键帧或候选帧既 
不是相距时间较短的帧，也不是同聚类内时间相差较长 的帧。 
此类方法优点在于用聚类消除镜头相关性，缺点是丢失了帧 
的时间顺序和部分动态信息。为此，文献 [9] 中提出了一种用 
多维特征向量描述帧，对帧序列进行多维空间映射，应用曲线 
多边形做简化，选取非线性部分的顶点作为关键帧的算法=这 
种方法优点在于能反映关键帧时序关系和视频序列细节，但 
带来了巨大的运算量， 

视频内容不同于静态图像，要取得比较好的分析效果，必 
须利用其时间轴上的特性，充分考虑其运动特征。一个简单 
的例子是利用人的运动特征区分人和背景，简化图像内容识 
别.常用的运动特征包括物体的运动轨迹，时域的纹理信息. 
以及运动矢量的主分量等-关键帧的选取上，需要综合考虑 
图像内容相似性和高度的时域连续性两方面。 

2.3 图像的内容特征识别 

通过前面的步骤我们获得了关键帧，接下来可借助图像 
的特征识别成果进行视频内容识别过滤。图像的内容识别和 
过滤,就是根据需要过滤的图像,定义其特征，并用颜色分析、 
纹理识别、形状检测提取其多方面特征用于建模，产生合理的 
分离器，并用该分离器对新图像进行检验分类，同时运用人工 
智能的自学能力方法或其它交互方式进一步完善分离器。 
2.3.1 颜色分析 

颜色是构成图像像素集合的基本特征，也是最为稳定的 
特征。因此，颜色作为图像最重要的内容之一也成为了图像 
视频内容最主要分析对象。颜色直方图根据像素在色彩空间 
出现的概率统计而成，可视为一维矢量。颜色直方图的建立 
首先需要选定色彩空间，常见的色彩空间有 RGB，XYZ、YUV、 
HSV、YCbCr 等。为消除庞大颜色种类，降低直方图维度，减 
小计算开销，可以对颜色进行量化后形成直方图，代表有 Smith 
在 HSV 空间量化得到166维直方图％。尽管这方法在提取图 
像特征时简单有效，但也存在一些问题。研究人员做了相应 
的改 进:针 对颜色特征对光照非常敏感的亮度问题, Gevers 提 
取了一些与视点、光照等条件无关的不变量针对信息丢失 
问题， Pass 采用颜色聚合矢量，细致分类传统的全局颜色直方 
图，保存了部分颜色空间分布特征 M1 ,Strick e 等提出了用累计 
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颜色直方图的计算方法，把颜色矩阵作为图像的特征，减小了 
量化带来的信息丢失 [wl ; 此外针对普遍存在的图像的局部颜色 
信息丢失问题，基于内容的图像检索研究人员做了大量研究， 
并提出了以固定区域划分法为代表的众多方法，把这部分工 
作作为颜色分析的主要研究内容予以 重视。 

肤色检测方法 w 是运用比较成功的颜色分析技术。肤色 
主要是由血液(偏红偏黄)和黑色素(偏棕褐色)共同形成的，去 
除亮度影响外，色调上无太大差别。若将色调和亮度分开，同 
时将皮肤色调尽量压缩到一个比较狭窄的颜色区域，就可以 
较好的形成皮肤独有特征。大部分的图像视频处理利用这个 
特点提取了皮肤的颜色特征，做了肤色检测。 

2.3.2 其它特征分析 

纹理是图像另一个重要特征，体现在局部不规则而宏观 
有规律，常指子区域灰度变化规律。目前虽然没有纹理的公 
认定义，但都认可纹理具有统计属性和结构属性，故分析方法 
有结构分析法和统计分析法。结构分析法致力于找出纹理基 
元结构组成规律，但难以得到准确的结构描述，仅适用于纹理 
基元大到可分割和描述的场合。统计分析法则依据图像颜色 
强度空间分布信息，用统计方法计算其特征值，代表算法有灰 
度共生矩阵法灰度共生矩阵方法用像素间方位和距离关 
系构造共生矩阵，抽取有意义的统计值作为纹理特征。显然 
统计分析法计算量比较大，但适用于自然和人造纹理。且该 
技术发展成熟，具有很强实用性,是主要纹理特征提取方法。 
20世纪90年代以来，借助于傅立叶频谱频率特征的频谱分析 
法发展迅速，其中最具代表性的为小波分析和 Gaboi •滤波器， 
适合于纹理的多尺度特征，并且应用广泛。 

除纹理以外，轮廓和形状信息也是图像内容识别的对象。 
轮廓常用来指物体边缘，它是周围像素在灰度上有阶跃变化 
的像素的集合，故可利用邻近一阶或二阶的方向导数变化规 
律进行检测 w 。 边缘检测算子中有 2 x 2 算子和 3 x 3 算子两类， 
其中常用的有 Sobel 算子、 Prewitt 算子、 Roberts 和高斯拉普拉 
斯算子。形状通常指封闭轮廓的包围区域，可用曲线或区域 
描述。形状的描述需要做到对平移缩放扭曲等不敏感，这需 
要分割技术对区域进行提取。但目前完全自动分割技术还不 
成熟，有待于进一步发展。斯坦福大学的 WIPETM 成功使用 
了 k 平均聚类算法获得带有各类特征结合体的区域此外 
David Forsyth 和 Margaret M . Fleck 在图像分析的轮廊形状方面 
也有着积极进展™。轮廓形状的研究对图像内容识别中提取 
感兴趣的区域有着重要作用，同时对于同一物体不同的视觉 
角度的分析也有极大帮助，例如轮廓形状研究对于我们分离 
物体和背景，人物不同姿态等有较大意义。 

经过了前面一系列的分析，我们可以获得颜色、纹理和必 
要的轮廓形状信息。众多信息需要我们筛选排列组合，甚至 
给予不同的权重，最终用一组多维特征向量或适合做分类处 * 
理的矩阵表示，作为后续计算分类处理的输入。例如，可以单 
独将颜色作为惟一特征(只要能满足 需求) ，这样可以减少后面 
的计算量，提高识别过滤 速度; 也可以将最大连通皮肤区域与 
皮肤总面积的比值等添加作为特征向量的一部分，增加分类 
的准确性。根据具体情况可以选用特定的特征向量组合，只 
要能达到准确度和性能的双重要求即可。 


2.3.3 图像特征分类 

在提取图像特征之后，要进行分类过滤，常采用的分类方 
法有.•经验阈值法、基于 Bayes 决策分类法 '以 及基于 Gaussian 
模型的 SVM (支持向量机)分类法 

经验阈值法是最早出现且最简单的分类方法，利用皮肤 
颜色分布聚合在一块压缩区域特点，从色彩空间上规定阈值 
来区分出皮肤。该法带有统计意义，优点是简单快速易实现， 
适用于估算皮肤分布，缺点在于过度依赖样本和样本空间选 
择，且阈值选择缺乏一定适 应性。 

Bayes 决策理论是统计模式识别的基本方法之一。基于 
该理论的 Bayes 分类器根据图像特征分布特点,利用类别先验 
概率理论，假设特征间概率分布相独立,使用类别条件概率来 
计算识别被检测图像属于哪个类别。剑桥研究室 Jones 在图 
片库中成功统计肤色类/非肤色类的条件概率分布，利用 Bayes 
决策来决定候选肤色该方法不足在于其数据量较大。 

此外我们也可用建立模型方式来分类，其中最常用的为 
Gaussian 模型法。它利用皮肤在色度空间分布有易分辨的波 
峰，可视为髙斯分布的特点建立理论模型。检测时将测试图 
像与该模型进行比较分类。比较分类方法可选用极大似然法 
或 SVM 法。它们比仅利用皮肤直方图分布进行 Bayes 决策更 
具适应性，更能表示皮肤分布特点。而相比极大似然法，向量 
机 SVM 分类基于统计学习理论 ( STL ), 研究有限样本及其学习 
问题，强调经验风险最小化。同时能有效避免“过学习问题” 
和推广能力较差的弊病，在解决小样本问题、非线性以及高维 
模式识别问题有较大优势。 SVM 分类器已成功应用于图像识 
别，并以明显优势取得了比以往分类器更好的效果 12|] 。 

3 相关研究与应用 

WlPEnw(wavelet image pornography elimination ) 19 】 是 STAN- 
FORD 大学研发的实时性图像过滤产品，相关技术已广泛用于 
因特网服务提供商。它把图标过滤器、图表图像检测分类器、 
纹理过滤器和基于小波的形状匹配器组成一个健壮的在线不 
良图片过滤系统。当图片通过这一系列过滤器过滤后，对有 
疑问的图片再运用了语义向量匹配技术将被检验图像与图库 
特征进行比较后做出处理决定。 

挪威科学技术大学 WiH Archer Arentz 和挪威 FAST 公司 
的 Bj 0 m .01 stad 联合研究了基于图像内容的网址分离器它 
先把图像中落在非肤色区域的像素去除，把留下的像素进行 
圈注，标明像素个数，存于数组中。接着将数组中像素数目最 
大的那些区域做颜色分析，纹理分析，轮廓分析，位置分析和 
相对大小的信息提取，得到包含这些信息的特征向量。最后 
运用遗传算法计算出各个元素权重，识别其是否含有黄色内 
容。通过扫描并分类该站点大部分图片，并做网站文字内容 
分析，判断是否该网站需要过滤掉 * 

美国加州大学 Santa Barbara 分校 Qiang Zhu 、 Kwang-Tmg 
Cheng 等和 VIMA 公司合作开发了一个自适应皮肤模型，并将 
其应用于反感图像的过滤。皮肤检测第1步利用较普通模型 
辨别出皮肤区域;第2步用最大期望算法 ( expectation - maximiza ¬ 
tion ， EM ) 去除非皮肤区域，建立一个高斯混合模型 (Gaussian 
mixture model , GMM ), 支持向量机 ( SVM ) 分类器通过皮肤像素 
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空间信息去辨别皮肤区域是否为高斯分布，进而判定皮肤是 
否需过滤％。 

此外，美国法案 COPA 极大促进过滤产品正政化，出现了 
如 Cyber Patrol 、 CYBERsitter 、 I - Gear 、 N 2 H 2 :Bess 等大批软件。这 
些产品的基本思路都是对网站进行分类，先扫描该网站，对其 
内容进行评估，根据安全等级决定是否过滤掉。同时该法案 
还要求 GOOGLE 用其搜索引擎扫描不健康的网站《»视频内容 
搜索方面研究得较有代表性的系统有卡耐基梅隆大学的 It »- 
fcrmedia 11 。％ IBM 公司的 Cue Video 。 

4 问题和未来趋势 

近些年，研究者在基于网络图像内容分析研究领域、视频 
结构分析和内容检索领域已经取得了一些成果，再加上高性 
能机器的发展、多核处理器的出现、多线程编程技术的成熟等 
支持，人们初步具备了采用网络视频结构分析，从'镜头中和镜 
头间获取关键帧，进行网络视频内容识别和过滤的条件 。同 
时也可以结合视频文字字幕和语音信息做多数据融合的分析 
技术，用来进行视频内容的监测。但是，视频识别过滤还存在 
着很多需要解决的 问题： 

(1) 深入理解语义，解决误判问题。我们知道对于需过滤 
的信息，定义较抽象，如何让高层语义描述落实到底层特征提 
取过程中，这需要思考。当前我们对于色情内容，绝大多数是 
基于皮肤检测和计算其暴露程度来判别。的确，皮肤特征较 
明显，其检测技术在计算机视图和人工智能领域有一些研究 
成果，可操作性强，但这决非色情完整定义，这可能导致了一 
些误判问题 。 Gio Wiederhold 在研究 WIPE 时己经指出了这 
类例子 

(2) 提高对人类视觉的认识，加强机器智能理论研究，形成 
实用型系统。人类对信息的捕获来自多方面多角度暗示，对 
物体的判断是各种暗示结合体加上人脑分析推理出来的，而 
并非单个特征或简单几个特征叠加导致。而机器没有人的智 
能，无法从底层本质上解决计算机视觉问题。只有加强对机 
器智能理论研究，提高对人类视觉系统工作机理的认识，并结 
合新成果运用到针对网络视频的检测系统设计中，才能取得 
良好高效的效果。 

(3) 解决好性能问题，做到应用于实时 网络。 现在的大多 
数视频研究针对的是静态数据动态查洵，而要对网络视频进 
行实时监控，需要加快对这种动态数据静态查询的研究。真 
正做到网络应用，对性能是个挑战。 

(4) 解决依赖性问题，提出评价标准。现存的图像实时过 
滤系统严重依赖于样本库，直接影响特征提取效果和分类结 
果，可以选用如自学能力、交互更新方式等方法解决过度依赖 
问题。另外各算法中特点和性价比不同，急需一套较好的评 
价标准来指导系统算法的选取。 

5结束语 

本文针对网络视频内容识别过滤问题，阐述了一种综合 
利用视频时域分割、关键帧提取、图像内容识别及皮肤检测等 
核心技术的解决方法。该方法充分利用图像处理、计算机视 
觉、信号分析、模式识别和人工智能等领域发展的成果，简单 


易实现，但在实际设计应用还须慎重权衡效率和准确度，选择 

合适算法尽可能获取视频段有意义信息，用机器自动、半自动 

和人工辅助的方法对视频内容进行实时髙效的分析过滤。目 

前人们对网络视频内容的识别和过滤领域研究与应用有一定 

的积极进展，将来必能逐步解决好存在的问题，设计出实时高 

效系统来净化我们的网络空间。 
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优先级要求,采用一定的变异规则，确定变异操作发生的基因 
段，然后在些基因段时，随机产一个变异位，在此段时随机变 
换位置。然后，査询禁忌表，进行判断，决定变异个体的取舍。 

2.5 运行控制参数的设定 

算法中参数的选取对算法性能都有很大的影响，种群规 
模，它对算法的效率有明显的影响，太小时难以求出最优解， 
太大则增长收敛时间导致程序运行时间长：交叉概率太小时 
难以向前搜索，太大则容易破坏适应值的结构,变异概率太小 
时难以产生新的基因结构，太大使遗传算法成了单纯的随机 
搜索。系统参数不同，迭代情况也不同。但目前没有一个通 
用的选择规则，只有通过对实际问题的具体实验中，总结出各 
参数比较合适的值。 

3仿真实验分析 

种群大小为100,杂交概率为 0.8, 变异概率 0.2, 最大迭代 
次数是500,任务优先级为随机生成1~3之间的数 ，备 份所需 
的时间为随机产生的1~«>之间的数，文献 [3] 算法是采用了二 
维编码结合演化策略的思想。具体实验结果对比如表1所示。 
图2为3个处理机,30个备份任务的静态性能曲线图。 

4结束语 

综上所述，仿真实验分析得出，本文采用了一维基于任务 
和机器的编码方式，比采用二维的编码更能找到问题的解，本 


表1实验结果对比 


处理机 

个数 

任务 

个数 

完成时间 /S 

收敛时的进化代数 



本文 
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280 



■0- GA 算法;■文献【3]算法：■本文算法 
图2静态性能曲线 (11 = 3 ,m = 30) 

文在生成新种群时引入了禁忌搜索算法思想，提高了遗传算 

法的全局搜索能力=本文采用的算法解决备份任务分配问题 

优于遗传算法,具有较高的搜索效率。 
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□ □ ARP □□□□□□□□□□□□□□□□□□ ARP □□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□ ARPQ □□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□ arpq □ □ 

I □□□□□□□□□□□ IPQDD MACD □ □ □ □ □ □ ARPD □□□□□□□□ 

□ □□□□□□□□□ ARPQ □□□□□□□□ MAC □□□□□□□□□□ 
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□ □□□□ !?□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□ ICMPD □ [6] D □□□□□□ rip 

□ □ [7i8] D OSFPD □ □ □ □ BGPD □□□□□□□□□□□□ 

(1) ICMPQ □□□□□□ 

ICMP 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□ 

RFC □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ ICMP 

□ □□□□□□□□□□□□□□□□□□ arpd □□□□□□□□□□□□□□□□ 

□ □□□□□□□□ ICMPQ □□□□□□□□□□□□□□□□□□□□□ IPQ □ □ 

□ □ IPD □ □ IPQ □ □ □ □ IPD □ □ □ □ □ ICMPQ □□□□□□□□□□□□□□□□ 

(2) ICMP □□□□□□□ 

ICMPQ □ □ □ 9Q 10 □□□□□□□□□□□□□□□□□□□ ICMPQ □ □ □ □ □ 

□ □□□□□□□□ ICMP □□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□ ICMPQ □□□□□□□ 

i □□□□□□□□□□ icmp□□□□□□□□□□□□□□□□□□□□□ IPQ 

n □□□□□□□□□□□□ icmpd □□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□IPD 

(3) RIP □ □ 

RIPD □□□□□□□□□□□□□ RIPvl □ RIPv2Q □□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ RIPD □ 

□ □□□□□□□□□□ 30s □□□□□□ □□□□□□□□□□ IPD □□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
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RIPvl □□□□□□□□□□□□□□□ UDP □□□□□□□ RIPv2 □□□□□□□□ 

□ □□□□ 16 □□□□□□□□□□□□ MD5 □□□□□□□□□□□□□□ MD5Q □ 

□ RIPv2 □□□□□□□ RIP □□□□□□□□ UDPQ □ 520Q RIP □□□□□□□□□□ 

□ □□□□□□□□□□□□ RIPD □□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□ 

(4) □□□□□□□□□□□□ 

bgfo □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

OSPF0 □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□ SPF □□□□□□□□□ OSPF □□□□□□□□ 

□ □ □ □ □ 

□ □ BGP □ OSPF □□□□□□□□□□□□□ RIP □□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ RIPD □ □ 

□ □□□□□□□□ 

5 DNS□ □ 

□ □□□□ IPD □□□□□□□□□□□□□ dnsq [9 ' 10] D □□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□ IPDDDDDDDDD 

□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□]□□□□□□□□□□□ Internet □□□□□□□□□□□ Internet 

□ □□□□bind □□□□□□□□ DNS □□□□□□□□□□□□□□□ 

(1) D DNS □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□ !□□□□□□□□□□□□ 
□ □ □ 

(2) □ DNS □□□□□□□□□□□ □□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ IPD □□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□ 

(3) DNS □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□_□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□ DNS □□□ 

•□□□□□□□□□□□□□□□□□□□ DNS □□□□□□ □□□□□□□□□□□ 

□ □□□□□□□□□ IPDDDDDDDDD IPD □□□□□□□□□□□□□□□□□ 

□ □□□□□□□□ IPD □ □ 

•□□□□□□□□□□□□□□ 

I □□□□□□□□□□□□□□□□□□□□□□ DNS □□□□□□□□□□□□ 

□ □□□□□ 

n □□□□□□□□□□ ns.victim.net 口 □□□□□□□□□□□□□□□□□□□ 

口 ns.attack.net! I I I ns.victim.net □ □ □口 random.attack.net ，□口 ns.victim.net □口 ns.attack.net 
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□ □ □ □ random.attack.netG □ □□□□□□ ns.victim.net □ □□□□□□□□□ ns.victim.net 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ ns.victim.netQ Q 
ns.victim.net Q □□□□□□□□□□□□□□□□□□□□□ 

m □□□□□□□□□□ ns.victim.netQ □□□□□□□□□□□□□□□□□□□□ 

□ ns.victim.net □□□□□□□□□□ random, spoof .netQ] □ ns.victim.net □ □ ns.spoof.net 

□ □ □ □ random.spoof.netG □ □ □ □ ns.spoof.net □ ns.victim.com □ □ □ □ □ DNS □ □ □ □ 

□ □□□□□□□□□□□□□□□□□□□ ns.victim.com □ □ □ random.spoof.net □ IP □ 

□ □□□□□□□□□ !?□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□ b) □□□□□□□□□□□□□□□□□□□□□□□ 

□ ns.victim.net □ □□□□□□□□□□□□□□□□□□□ 

6 □□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□ 

⑴ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

I □□□□□□□ Telnet 口 SMTPQ POP3 口 FTPQ □□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□ 

D □□□□□□□□□ WebQ □□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□ WebQ □□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ [HE 

□ □□□□□□□□□ 

( 2 ) □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□ Kerberos 口 S/KeyQ SMB/CIFSD SRP □ □ □ □ □ □ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□ 

(3) □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□ IPSecQ SSLQ SSHQ □□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□ 

7 □□□ 


□ □ □ Linux redhat6.2 □□□□□□□□□□□ libpcap □ □ □ □ Libnet □ □ □ ARP □ 
□ □□□□□□□□ socket □□□□□ DNS □□□□□□□□□□□□□□□□□□□□ 
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□□□□□□□□□ □□□ □ 

(□□□□□□□□□□□□□□□□□□□□□□□□□□□ 150001) 

□ □□ DNS □□□□□□□□□□□□□□□□□□□□□□□□ Internet □□□□□□ DNS □□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ DNS □□□□□□□□□□□ 3DDDD 

□ □□□ 3DDDDDDDDDDDDDD dns□□□□□□□□□□□□□□□□□ 

□ □ □ □ DNSD DNS □□□□□□ □ 

Detection and Defence of DNS Spoofing Attack 

YAN Boru, FANG Binxing, LI Bin, WANG Yao 

(National Key Lab on Computer Context Information Security, Harbin Institute of Technelogy, Harbin 150001) 

□ Abstract]] DNS is a critical component of the operation of Internet applications. The Internet is greatly affected if DNS is attacked. DNS spoofing 
is one of the most popular attack means with the character of high dormancy and good attack effection. But so far, little is done to defend the systerm 
against this attack. Three methods are presented to detect DNS spoofing attack, and then another three techniques are proposed to identify the bogus 
packets and the right ones to ensure DNS service even attacked. 

□ Key wordsf] Domain name system (DNS); DNS spoofing; Attack detection 
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在 RAS/H.225.0 信令消息内，按上述方法设置数据结构，并 
完成相应签名运算后，发送给接收实体。签名消息依赖于终 
端与网络安全策略，决定是对整个信令消息还是仅仅为其中 
一部分。 

接收实体收到该信令消息后，立刻检验发给它的那些 
tokenOID 所指示的签名，完成下列安全认证 过程： 

(1) 通过验证时间戳的生存期和 random 值的唯一性来抵御 DoS 
攻击； 

(2) 通过对 generallD 身份与自己的识符比较，验证发送者是否 
为合法用户； 

(3) 验证 SendersID 是否与证书内一致及是否具有相应的访问 
权限； 

(4) 消息签名是否与自身验证计算的签名相匹配，以验证消息是 
否被中途篡改； 

(5> 通过对接收 S 的证书的检验，验证发送实体是否为合法注册 
实体及电子商务中的不可否认性。 

验证了发送实体合法性后，可利用 dhkey 中指明的 
Diffie-Hellman 密钥协商算法，在返回的响应消息 (GCF,RCF) 
中，完成会话密钥的协商与交换。 

4.2 安全呼叫信令信道 ( H .225.0) 与媒体信道的建立 

完成终端安全接入网络后，可通过 ARQ/ACF 或 LRQ/ 
LCF 信令交互，基于网络接入过程中所安全交换的会话密钥， 
利用对称密码技术实现安全认证/完整性并建立起安全 信道； 
利用 Diffie-Hellman 算法可为多媒体终端之间的通信协商出 
连接及媒体流加密的会话密钥。利用实时传输协议/实时传输 
控制协议 [6] (RTP/RTCP) 实现基于分组的媒体通信的机密性。 

5 结论 

本文通过对 H.235 协议框架内的认证、隐私及完整性的 
研究，提出一种基于椭圆曲线密码技术，对 H.323 系统实施 


增强安全保护。针对通用处理器的特点，设计与实现了具有 
可伸缩结构、实时有效 ECC 快速算法，使得由该算法实现的 
ECC 软件引擎既可用于受限处理器平台，如简单智能电话终 
端，也能用于高端服务器上，如网守。所设计的点乘与点加 
算法，相对于 IEEEP1363 标准中给出的算法 [8] ,速度可提高 
10%~15 %。最后，基于所给出的 ECC 安全方案，结合 H.323 
终端的通信流程，完整实现了增强 IP 分组多媒体通信安全与 
保密。 
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ADMID 本身没有对授权域和附加域进行处理，因此还不能 
完全代表所有的攻击模式。为此作者在欺骗包的构造中引入 
了 10% 的授权域浮动因子，使得欺骗包的授权域以 10% 的概 
率浮动，从而增加实验的真实性。本实验分别采用加权法和 
贝叶斯分类法对国内 Top 100 网站进行了域名解析测试，实验 
结果如表 3 所示。 


表3域名欺骗攻击识别实验结果 


识别方案 

DNS 请求次数 

欺骗次数 

攻击检测成 
功次数 

合法包识别 
成功次数 

加权法 (1,0,0) 

1 000 

1 000 

973 

726 

加权法 (u ， l) 

1 000 

1 000 

984 

973 

贝叶斯分类 
( 单特征） 

1 000 

1 000 

977 

936 


表 3 加权法括号内为权值分配策略，其依次为应答域、 
授权域和附加域的权值。从表 3 中可以看出，当采用加权法 
时，仅通过应答域来判断时，识别率为 72.6%, 误差 较大； 
而当调整权值策略，综合考虑应答域、授权域、附加域时， 
识别率就大大提高，平均达到了 97.3 %。由于目前的攻击工 
具构造的虚假报文都比较简单，因此单特征的贝叶斯分类法 
的识别率也比较高，达到了 93.6 %。当然如果攻击工具调整 
了报文信息，权值分布和特征都要作相应的调整才能达到满 
意的识别效果。 


5 总结 

网络攻防一直是推动网络安全向前发展的源动力。只有 
不断地发现网络的安全弱点并不断改正，才能使整个网络更 
加健康和完善。本文基于当前的 DNS 架构，提出了对于 DNS 
欺骗攻击的全新的检测和防范方案，对于提高 DNS 的安全性 
和抗攻击性具有积极的作用。缓存中毒攻击是针对 DNS 的另 
一攻击手段，对它的检测和防范，以及对攻击者的反向追踪 
将是我们下一步工作的重点。 
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一种基于路由扩散的大规模网络控管方法 

刘刚，云晓春，方滨兴，胡铭曾 

( 哈尔滨工业大学计算机科学与工程系，黑龙江哈尔滨 150001) 

摘 要： 针对已有的网络控管方法的缺点，提出一种基于路由扩散的大规模网络控管的新方法。 
阐述了其基本网络拓扑结构、动态路由协议的选取和配置等问題，并同已有的方法进行了详细对 
比。该方法具有路由器负担小、控制规则容量大、智能化、可扩展以及一处配置多处生效等优点 . 
适用于大规模网络控管。 
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A control method for large-scale 
network based on routing diffusion 

LIU Gang, YUN Xiao-chun, FANG Biii-xiiig, HU Miiig-zeiig 

(Department of Computer Science and Engineenng, Harbin Institute of Technology, Harbin 150001 ， China) 


Abstract: To overcome the disadvantages of the existing network control methods, a new control 
method for large-scale network based ou routing diffiision is presented This paper studies its overall 
structure of network topology, the selection of dynamic routing protocols as well as coufigiiratioii, and 
compares this method with the existing methods in detail. Witli the advantages of less router load, more 
control rules ， intelligence, scalability, multiple routers becoming effective by configuring only one router, 
and so on, the new method is adapted to large-scale network control. 

Key words: large-scale network control; routing diffiiaon; routing protocol; access control; OSPF; BGP 


l 引言 


随着计算机网络技术的迅猛发展和国民经济与社会信息化的大力推进，各行政、企事业 
单位都建立了网络信息系统，电子政务、电子银行、电子商务、网上证券、远程医疗、远程 
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教育等应用越来越广泛。但是，网络信息安全的问题也隨之而来，前不久泛滥的“红色代码”、 
“尼姆达”病毒和越来越多的黑客入侵事件，使人们充分认识到网络信息安全管理的重要性 
和紧迫性。为了防止各种有害信息在网络上的蔓延，必须对网络上的信息进行过滤分析，并 
采取有效的手段阻断有害信息的传播 u 这就需要通过一定的网络控管方法管理网络上的关键 
点，控制网络特定信息的 流动。 尤其在大规模网络环境中，更需要一种高效可行的网络控管 
方法做到实时过滤和有效控制有害信息，同时不影响正常信息的流动。 

网络访问控制是保障网络信息安全的重要手段。访问控制可以分为面向主机和面向网络 
两种类型。面向主机的访问控制的控管对象是建立在操作系统或者应用系统上面的用户，控 
管目标是防止非法用户进入系统以及合法用户对系统资源的非法使用。而面向网络的访问控 
制是指在各級组网设备上实现对网络流量的控制，控管的对象是流经网络设备的数据包，目 
标是阻断有害信息（数据包）的通过。从功能上来说，可以根据网络管理员对访问控制规則 
的配置，对流经的数据包进行多个元素的匹配（例如源和目的 IP 地址、源和目的端口等等） 
并按照匹配结果选择对数据包进行接收、丢弃和转发等形式的操作。从实现要点来说，就是 
在实现控管功能的同时要保证不影响正常流量和系统的效率。面向网络的访问控制根据所应 
用的网络规模又可以分为局域网的访问控制和大规模网络的访问控制，局域网的出入口路由 
器一般拥有相对较低的带宽，实时过滤容易实现，在具有复杂的访问控制规则配置情况下一 
般仍然可以达到线速匹配，不会导致系统丢包，所以在这种规模的网络上面可以完成比较丰 
富的控管 功能。 大规模网络访问控制，我们是指在 Internet 服务提供商 ( ISP ) 所管理的大规 
模自治域 （ AS ) 的核心路由器上面进行访问控制，而这些路由器通常拥有几十 G 乃至上百 
Gbit 的核心交换容量、数十万条路由表项以及数十乃上百 MPPS 的包吞吐率等技术指标，按 
照常规的方法在上面实现访问控制而且要不影响路由器的高達数据交换是很困难的。 

但是在大规模网络上面进行访问控制对于实现国家級的网络信息安全管理具有重要的意 
义，本文正是致力于给出一个解决 方法。 目前，实现网络访问控制 [ u ] 有几种方式，但它们都 
存在一定缺陷而不适应大规模网络环境下的访问控制。为了避免对路由器的交换速率和对原 
有网络拓扑结构造成较大影响，在现有路由器上利用路由表匹配功能，进行流量控制是很好 
的 方式。 因为路由表匹配算法成熟且效率较高，不占用处理器太多资源，对路由器的性能影 
响较小，而且路由表具有较大的路由信息容纳量，也即可以承受较多的访问控制规则。本文 
即是利用高效的路由表匹配功能，提出一种基于路由扩散技术的大规模网络控管新方法。 

2基于路由扩散的大规模网络控管方法 

基于路由扩散的网络控管方法就是在大规模自治域的出入口路由器上新接入一个起控管 
作用的子网或者 AS 域，将要受控的网络地址配置在这个子网或者 AS 域内的路由器中，这 
样利用动态路由协议的网络拓扑自动识别特性，在出入口路由器上将生成受控网络地址的路 
由信息，将自治域内部网络对这些受控网络地址的访问转入到这个控管子网或者 AS 域的网 
络中，从而实现对受控网络地址的流量控制。 

2.1 路由扩散网络控管的网络结构 

本文主要研究在大规模网络环境下的网络控管方法，图1给出了在一个较大规模 ISP 中 
进行路由扩散网络控管所采用的网络结构。其中， ISP 0 是实施了网络控管的 ISP 。 因为 ISP 
出入口路由器是不同 ISP 之间交换数据的必经路由器，所以 ISP 出入口路由器作为控制点路 
由器是面向 ISP 級网络控管的有效选择。从样本路由器 （ sr) 到各个出入口路由器 （ or) 的路 
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由扩散链路可以直接连接，也可以通过一級或多級的扩散路由器 （ kr) 到达各个 or ， 其中如 
果条件允许可以建立双链路以做备份 （例 如从 si •到 oi '4)， 每个 kr 也可以接到多个 01 •上 （例 
如 krl )。 扩散链路的建立主要有两种形式 ： 1) 使用专用线路，扩散達度快，稳定性高，但 
成本也较高； 2) 在公用数据网上使用加密隧道来建立虛拟链路连接，成本小，但扩散達度和 
稳定性相对差一些。可根据具体情况选择不同的形式实施，在这些链路上使用何种动态路由 
协议将在下一节阐述。 



sr 样本路由器 or 出入口路由器 


CH > kr 扩散 路由器 SS 样本服务器 [] f S 黑洞服务器 

图 1 在一个 ISP 中进行路由扩散网络控管的网络结构 

样本服务器 （ ss) 连到 sr 的控制口 (console) - 网络管理员在 ss 上录入受控网络地址 IP1 ， 
ss 上的运行程序根据受控网络地址 IP1 生成相应静态路由，该路由的目的网络地址即为受控 
网络地址 IP1 , 下 一跳指向黑洞服务器 （ fs) 的 IP 地址，并将该静态路由从控制 口写入 sr 中， 
由 sr 经过扩散链路逐級扩散到各个 or 中，这样凡是经由各个 or 而目的网络地址为受控网络 
地址 IP1 的数据包都会被转发到 sr ， 然后由 sr 转发到黑洞服务器上。黑洞服务器可以选择直 
接将这些包丢弃或者做其它的处理，同时也可以据此对各种受控网络地址访问的流量进行统 
计和分析。这样，实现了在样本服务器上一处配置受控网络地址，即在各个出入口路由器上 
同时生成对这些受控地址的访问控制，具有一处配置多处生效的优点。解除控制操作的效果 
同样如此。 

一方面，在 ISP 内的网络地址对 ISP 外的受控网络地址的访问都将被转路到黑洞服 务器； 
另一方面，在 ISP 外的受控网络地址对 ISP 内的用户进行访问时，虽然从受控网络地址发出 
的请求包可以到达用户，但用户的应答包在经过 ISP 的出入口路由器时同样被转路到黑洞服 
务器而导致连接建立的失败。大部分的网络攻击和网络病毒都是基于面向连接协议的，只要 
在单方向上能对其进行流量控制，就可以破坏掉连接从而阻止该网络攻击和病毒扩散。综合 
以上两方面可以看出，该方法可以在网络层利用路由功能实现对受控地址的流量控制。 

2.2 动态路由协议的选取和配置 

动态路由协议的选取和配置是实现本文所提出的网络控管方法的一个关健=无论样本路 
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由器和扩散路由器是通过专用线路，还是通过虛拟线路接入到各个出入口路由器上，对 ISP 
来说都相当于增加了一个或多个网络分支。根据实际的接入情况，本文提出两种动态路由协 
议的选取 方案： 

1) 将从样本路由器到各个出入口路由器的每条扩散链路看成是 AS 域内的一个网络分 
支，如图2所示，所以应考虑使用域内的动态路由协议。目前，常用的域内动态路由协议主 
要有 RIP 、 OSPF [ 3] * IS - IS w 等。 RIP 是基于距离向量的路由协议，而 OSPF 是基于链路状态 
的路由协议。在实际的应用中链路状态协议总是比距离向量协议收敛更快，对网络控管系统 
来说较快的响应速度是很重要的，而且 OSPF 在对 IP 服务类型、流量平衡和超子网等方面的 
支持均占有优势。而 IS-IS 目前获支持程度没有 OSPF 高。基于如上的情况，该方案选用 OSPF 
动态路由协议。 

2) 将样本路由器和所有的扩散路由器组成的网络看成一个独立的 AS 域，各个出入口路 
由器在其它的 AS 域中，则样本路由器或扩散路由器同出入口路由器的路由信息交换便成为 
域间的路由信息交换，如图3所示。在域边界上应该使用域间路由协议，现在多数 ISP 出入 
口路由器的域间路由协议都使用 BGP 协议[城。因此该方案是在样本路由器和扩散路由器组 
成的 AS 域内使用 OSPF 协议，在域间使用 BGP 协议。 




不管最终采用那种动态路由协议的选取方案，在配置协议时都要注意以下几个 方面： 

1) 在样本路由器上配置动态路由协议时，一定要将由样本服务器写入的静态路由表项， 
在同扩散路由器或者出入口路由器相连的接口上利用该动态路由协议重分发 ( redistribute ) 
出去。如果采用第二种动态路由协议选取方案，也必须要在扩散路由器的配置有 BGP 协议的 
接口上利用 BGP 协议将 OSPF 的路由表项重分发出去。这是因为不管是静态路由，还是各种 
动态路由协议，它们都只维护自己的路由表项，如果没有主动设置重分发，它们不能获取其 
它协议的路由表项。 

2) 在出入口路由器上禁止向扩散路由器或样本路由器发送路由信息宣告，即路由信息学 
习是单方向的 。原 因有 两个： a . 出入口路由器的路由表项既多又复杂，扩散路由器和样本路 
由器学到这些表项没有什么用，反而会影响它们的扩散 效率； b . 如果放开双向路由信息学习， 
各个出入口路由器会通过扩散链路在它们自己之间相互扩散路由信息，将导致主干网上的路 
由信息混乱。 
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3) 在出入口路由器上要提高扩散上来的受控路由信息的优先級，使它们能够优先匹配， 
从而有效实现网络控管。 

2.3 同已有控管方法的对比 

现在实现网络访问控制的主要方法是使用路由器访问控制列表和防火墙技术。较传统方 
式是使用访问控制列表 [7 ' 8] (access control list ) ,但由于路由器对访问控制列表的实现在很大程 
度上依赖于软件系统，这会占用较多的处理器资源，而在大规模网络环境下实现访问控制势 
必生成过长的 ACL ， 导致处理器负载过重，使得系统的包转发率大大降低，影响正常的流量 
和系统的稳定。另一种方式是使用专业防火墙 [9] 对特殊流量进行屏蔽，但防火墙并不适用于 
网络结构紧密、数据流量很大的网络出口。即使是硬件实现的，在大流量情况下也很难保证 
线達匹配，例如还没有出现 2.5 Gbit / s 带宽下线達匹配的防火墙产品。表1给出了基于路由扩 
散的访问控制方法和这两种常规方法的比较。 


表 1 三种网络访问控制方法的对比 


对比方面 

访问控制列表 

防火墙 

路由扩散方式 

效率(大规模应用） 

一般 

一般 

高 

稳定性 

较好 

较好 

好 

控制规則丰富性 

较丰富 

丰富 

一般 

控制规則实际容童 

一般 

一般 

大 

智能性 

没有 

没有 

有 

操作3单性 

复杂 

复杂 

简单 

对原有结构影响 

无 

大 

小 

可扩展性 

差 

差 

好 


在大规模网络上面实现访问控制最关鍵的一点就是不能影响出入口路由器的高達数据交 
换，在这一点上访问控制列表和防火墙方法都很难做到，而基于路由扩散的访问控制方法可 
以胜任，因为它是利用路由表匹配功能，进行流量控制 。路 由表匹配算法成熟且效率较高， 
一般由专用芯片完成，不占用处理器太多资源，对路由器的性能影响小。这是路由扩散方式 
的关键优势 所在。 

在其他方面，路由扩散方式的优点还体 现在： 1) 可以实际承受很大的控制规則容量，因 
为控制规則的增加对路由器的影响不大，而对于另外两种方法来说，控制规则的增加对性能 
会造成一定的影响，这也导致了它们在实际的应用中不可能配置很多的 规則； 2) 通过对黑洞 
服务器获取的数据进行统计和分析，按照一定的原則将结果反馈给样本服务器，帮助样本服 
务器决定对网络地址的施控或者解控，具有智能性的 优点； 3) 操作简单，只需要管理员录入 
或删除受控网络地址，不必配置复杂的访问控制规则； 4) 对原有的网络结构影响比较小，而 
防火墙需要设置在出入口路由器的外围，对原有的网络结构有一定影响； 5) 具有可扩展性， 
因为每个扩散分支负责到一个出入口路由器的扩散工作，所以如果新增出入口路由器，相应 
增加扩散分支即可。路由扩散方式的缺点是访问控制规则不够丰富，防火墙和访问控制列表 
都拥有比较丰富的访问控制规则，可以对数据包进行多种元素的匹配，而路由扩散方式只能 
匹配数据包的目的地址，但是目前的实际情况并不适合在大规模网络上面设置复杂的访问控 
制 规则。 

网络管理员也可以直接在出入口路由器上写入静态路由，来完成控管任务，这种控管方 
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式可以称为直接控管。直接控管的好处在于控管生效速度最快，而且靜态路由本身就有很高 
的匹配优先級 。但 是，一个大的 ISP 可能有多个出入口路由器，较多次的手工输入势必导致 
输入环节出错概率增大，同时效率低下，而路由扩散方式则具有一处配置，多处生效的优点。 
同时因为大部分的出入口路由器主要靠动态路由协议来了解网络拓扑信息，所以一般用来存 
放配置信息和永久静态路由的快達存储器 (flash memory ) 容量都较小，写不了太多静态路 
由。如果静态路由只写到内存中，则路由器重启后，将会丢失写入的静态路由。因此，直接 
控管并不适合在大规模网络环境中应用。 

3 结论 

本文提出了利用动态路由协议，通过将受控路由信息扩散到大规模网络的出入口路由器 
上来实现大规模网络控管的方法。这个方法具有路由器负担小、控制规则容量大、智能化、 
可扩展以及一处配置多处生效等优点。本文所提出的方法在多个 ISP 的实践中表明，基于路 
由扩散的访问控制方法可以在大规模网络上实现控管，能配置高达上万条的访问控制规則， 
不影响核心路由器的高達数据交换，整个系统工作稳定。 
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中国 AS 级拓扑测量与分析 

张宇方滨兴张宏莉 

(哈尔滨工业大学计算机网络与信息安全技术研究中心哈尔滨 150001) 

摘要为描绘中国自治域 (Autonomous Systems ， AS ) 級拓扑图景，文中运用综合集成的思想来考察不同拓扑数 
据之间在数据本身和统计特征上的差异.首先，采用基于 BOP 羞于 tmcerouU 和基于 IRR 的方法从不同数据源获 
取了拓扑快照和十年间历史.其次，对快照进行基于集合运算的分组比较，并得到了 一幅较完整可信的图.接着，从 
生灭过程角度，分析三类增长机制，指出了‘灭’过程的缺失.然后，运用复杂网络特征化方法，比较了三幅图的特征 
及显著性，发现平均度主导了多数差异，并指出有关 RklrClub 现象的争议根源之一在于数据差异.最后，给出了特 
征演化的四点观察，包括相关模型中未能重演的平均度增长现象. 

关鍵词拓扑 測量； 拓扑建模;拓扑 演化； 复杂 网络； 自 治域； 综合集成 
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Chinese AS-Level Topology Measurement and Analysis 

ZHANG Yu FANG Bin-Xing ZHANG Hong-Li 

(Research Center of Computer Network and Information Security Technology , Harbin Institute of Technology ; Harbin 150001) 

Abstract To describe the prospect of Chinese autonomous system (AS) level topology , the au¬ 
thors adopt the met a-synthetic methodology to investigate the differences of topology data in 
themselves and their statistical characterization. Firstly , the topology snapshots and teiryear his¬ 
tory are collected from various data sources with the B GP- , traceroute- and IRR-based methods. 
Secondly, topology snap shots are compared by groups with set operations, and a relatively com¬ 
plete and credible Chinese AS graph is obtained. Three growth mechanisms are analyzed from the 
view of the birth-death progress. The miss of death progress in related models is pointed out. 
Then, the topological characteristics and their significances of three typical snap shots are com¬ 
pared with complex network characterization methodologies. The fact that the average degree can 
determine most of discrepancies is discovered. Finally , four observations on the evolution of to¬ 
pological characteristics are presented , including the phenomenon of average degree growth which 
wasnt replayed by related models. 

Keywords topology measurement; topology modeling; topology evolution; complex network; 
autonomous system; met a-synthetic 
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济之间的互动.本文以展现中国网络结构的宏观图 
景为目标，探讨当前研究中存在的3个关鍵 问题： 

(1) 测量技术与数据源的多样性改善了完整性 
问题，但尚未解决，同时又增加了提高准确性的难 
度.相关问題包括基于 traceroute 測量的失真 [n 、基 
于 BGP(Border Gateway Protocol) 測量的时间窗选 
择 [>3] 基于 IRR(Internet Routing Registry) 測量的 
可信验证 [>3] 以及演化拓扑的‘存活性’ [4] .目前所达 
成的一个共识是： AS 級拓扑都只是“推測的”. 

(2) 測量数据的差异导致在拓扑特征化上的争 
议，这阻碍了复杂网络特征化框架的建立.例如，文 
献 [5] 指出，发现度分布幂律 [6] 时所用的 AS 图丢失 
了 20 %〜 50 %的链接，而更完整拓扑的度分布并不 
严格服从幂律.最近 .Colizza 等 [7] 和 Zhou [s] 就 AS 
級拓扑是否具有 RC(Rich-Club) 现象展升了争论， 
而此现象是 Zhou 等[ 9] 提出的 PFP(Positive-Feed- 
back Preference) 模型的基袖之一 . 

( 3 ) 尽管现有拓扑演化模型能够再生部分图论 
特征，但还无法重现演化过程.多项工作 [+5 相 
继指出 BA (BarabAsi-Albert) 模型 [12] 与观測的历史 
有较大差异.一些改进模型，例如 GLP ( Generalized 
Linear Preference) 模型 [11] 和 PFP 模型 [9] ，虽然引 
入了新的增长机制，但与实际历史的匹配程度还有 
待考察. 

我们认为上述问題的症结在于两 点：一 是在研 
究内容上，对数据间的差异认识不足.数据在横向上 
有不同来源的快照，纵向上有不同时期的 历史； 差异 
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既存在于数据本身，也存在于统计 特征； 二是在研究 
方法上，以往工作中缺乏综合，大多是采用单一方法 
的測量，对单一度量的分析，或在单一快照上对模型 
验证 . 为此，本文将采用复杂巨系统研究中的综合集 
成 （ ineta-synthetic) 方法论 [13] ，其关鍵思想之一在于 
将各方面的研究综合起来，在以往彼此孤立的工作 
之间建立联系.具体到本文是将各种測量数据和分 
析方法综合起来，通过寻找数据间的差异来建立联 
系 . 首先，采用不同測量方法和数据源来收集拓扑快 
照与 历史； 然后，通过基于集合运算的分组比较来考 
察数据本身的差异，通过观察历史上的生灭过程来 
验证增长 机制； 最后，运用复杂网络特征化方法分析 
统计特征及其显著性的差异与演化 . 

2拓扑測量 

2.1 快照测量 

采用 3 种測量技术得到了 19 幅中国 AS 級拓 
扑快照，每幅图按 “ 源 - 方法 ” 格式来命名，见表 1. 

(1) 基于 BGP 方法 . 从 BGP 路由表或更新消息 
的 AS_path 条目中提取数据 . 主要数据源是 BGP 
路由采集器项目，包括 RouteViews ， RIS 和 B GP* 
View. BeyondBGP 项目 [ 3] 收集上述项目数据，还收 
集 IRR 数据，但其中未包括 APNIC ，所以其中国部 
分是单纯基于 BGP 的.从三个采集器项目中各提取 
了 一幅基于路由表的图和一幅基于更新消息的图 . 
同时，收集 BeyondB GP 的一幅图，为与 ZZZ-PTR 
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表1中国 AS 級拓扑快照 


名称 

点 

边 

c2p 

P-P 

曰期 

源 

链接 

RV-TB 

119 

185 

179 

6 

2004-1M8— 21 

Oregon 

www. routeviews org 

RV-UD 

126 

230 

213 

17 

2004-11-01 — 12-21 

RouteViews 

RIS-TB 

118 

182 

176 

6 

2004-1M8— 21 

RIPE NCC 

www. npe net/ 

RIS-UD 

130 

231 

208 

23 

2004-11-01 — 12-21 

RIS 

project s/ ns/ 

CE-TB 

121 

176 

164 

12 

2004-1M8— 21 

CERNET 

bgpview 6test edu cn 

CE-TJD 

129 

228 

206 

22 

2004-11-01 — 12-21 

BGP View 

B04-MAP 

126 

233 

215 

18 

2004-11-01 — 12-21 

Beyond B GP 

www. beyondbgp net 

B05-MAP 

129 

257 

239 

18 

2005-03-15—05-10 

ZZZ-PTR 

84 

211 

187 

24 

2005"0>01 〜 05*10 

文献 

- 

S04-PTR 

33 

41 

37 

4 

2004-1M8— 21 

CAIDA 

skitter 


S04-ITR 

65 

130 

118 

12 

2004-1M8— 21 

www. caida org 

S05-PTR 

29 

35 

29 

6 

2005*05~01 〜 05~10 


D04-PTR 

87 

170 

157 

13 

2004-1>10〜31 



D04-ITR 

63 

66 

58 

8 

2004-1M0— 31 

DIMES 

www. net dimes org 

D05-PTR 

96 

229 

196 

33 

2005* 04-25 〜 05M5 



FT-ITR 

92 

306 

259 

47 

2004-1M8— 21 

Fastrace 

- 

AP-RR 

22 

17 

14 

3 

2004-1001 〜 1>21 

APNIC 

ftp apnic net 

3C-MAP 

131 

241 

218 

23 

- 

- 

- 

CN-MAP 

134 

305 

270 

35 

- 

■ 

- 


注 」 -TB ’ 基于 BGP 路由表 ， ‘-TJD • 基于 BGP 更新消息 ， ‘-ITR ’ 基于 traceroute 的 IP 級数据 ， ‘-PTR ’ 基于 traceroute 的发布 ， ‘-RR ’基于 
IRR; ‘-MAP’ 由多幅图合成 . 
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比较，还提取了 5个月后的数据.更新消息的采纳时 
间参照文献 t 2-3；| 为最近两个月. 

(2) 基于 traceroute 方法.采用 IP 級測量发现 
从监測点到目标的一组顺序相连路由器的接口 IP 
地址，再通过 BGP 路由表中源 AS - 前缀对将 IP 地 
址映射到 AS 号.此方法主动发现数据包经过的‘实 
际’路径，而非路由表中的‘计划’路径.长期測量项 
目包括拥有20余个专用监測点的 skitter [14] 和由上 
千台志愿主机参与的 DIMES 1151 . 从中各提取三幅 
快照： 直接从 IP 級測量数据中提取的、同期发布的 
以及5个月后发布的.我们也从12个国内监测点 
使用工具 fastrace 测量了 128万个目标，发现 IP 級 
节点（边）数& 2万（13_ 3万）是同期 skitter 的5倍 
(4 倍 ) JDIMES 的37倍 (49 倍) . 5个月后 ’Zhou 等 [16] 
从6个国内监測点測量了 0. 74万个目标. 

(3) 基于 IRR 方法.从路由策略注册数据库中 
提取数据.与前两类基于‘机器’的方法不同，其信息 
由人们自愿填写.文献 [2-3] 提出一组启发式规则以 
确认一条注册记录是可信的，简要归纳为 ：该 记录中 
的 AS 出现在 BGP 数据中，且边同时出现在该边两 
端的 AS 记录中.在 APNIC 的153条注册记录中共 
含154个点和312条边，其中只有6条边满足上述 
规则.我们认为更新时间较新的记录也是可信的，并 
提取了最近一季度内的更新记录. 

2.2 历史測量 

获取拓扑历史要面对完整性与准确性的两难， 
即判断点与边的出现或消失是源自实际拓扑变化， 
还是临时路由变化.文献 [4] 提出‘存活性’问题并根 


据变化持续时间采纳后验置信度大于 0. 9的变化. 
为明确结论，本文采用一种非后验的完整性最大化 
方 法：采 纳‘一旦出现’和‘永久消失’的信息.下节列 
出了十年来中国 AS 級拓扑历史，来源于两处基于 
BGP 的数据：1997〜2001年间的来自于 NLANR 
发布的 Route Views 路由表快照（此时期唯一的数 
据源）； 2002〜2007年间的来自于 BeyondBGP . 未 
采用其他方法的原因在于，基于 traceroute 的历史 
积累较基于 BGP 的短，且一致性较弱（见 3. 1节）， 
而基于 IRR 的可信性尚存在问题. 

此外，为了考察经济因素对拓扑的影响，根据文 
献 [17] 的方法和数据对中国 AS 间互连关系进行了 
推測.互连关系大致分为 两类： 客户-提供商 （ c 2 p ) 和 
对等 ( p 2 p ). 表1〜表3显示 c 2 p 作为主流关系构造 
了网络的层次性. 

3基于集合运算的比较 

3.1 快照比较 

本节基于集合运算对快照进行7组比较，并从 
两个方面进行经验性的定性 评价： 完整性，即发现拓 
扑的 规模； 一致性，即不同数据间的相似程度，分高/ 
中/低 （ H / M / L ) 三級，结果见表 2. AP - RR 规模小， 
未做比较. 

(1) ‘-1；0’与‘-13’.比较说明基于路由表的測 
量至少丢失10%的边.前者包含后者意味着路由表 
中每条链接都在两个月内被更新过.因此 ， ‘-UD ’图 
是采集器的完整视图. 


表2基于集合运算的快照比较 


a x 

图 Y 

点 

图 X-Y 
边 c2p 

P-P 

点 

图 

边 

Y-X 

c2p 

P-P 

完整性 

一致性 

*-UD 

*-TB 

S 

31 

21 

10 

0 

0 

0 

0 

M 

M 

RV-TB 

RIS-TB 

1 

3 

3 

0 

0 

0 

0 

0 

H 

H 

RIS-UD 

RV-UD 

o 

10 

4 

6 

0 

9 

9 

0 

H 

H 

RV/ RIS-TB 

CE-TB 

o 

34 

33 

1 

4 

25 

18 

7 

M 

M 

RV/ RIS-TJD 

CE-IJD 

0 

13 

12 

1 

1 

1 

1 

0 

H 

H 

S04-ITR 

S04-PTR 

32 

98 

89 

9 

0 

9 

8 

1 

M 

L 

D04-ITR 

D04-PTR 

4 

6 

6 

0 

41 

110 

105 

5 

M 

L 

FT-ITR 

S04-ITR 

27 

190 

155 

35 

0 

14 

14 

0 

H 

L 

FT-ITR 

D04-ITR 

46 

245 

206 

39 

4 

5 

5 

0 

H 

L 

S04-ITR 

D04-ITR 

24 

78 

73 

5 

9 

14 

13 

1 

M 

L 

FT-ITR 

ZZZ-PTR 

19 

152 

124 

28 

11 

57 

52 

5 

H 

L 

D04-PTR 

D05-PTR 

6 

43 

41 

o 

15 

102 

80 

22 

H 

L 

B04-MAP 

BOS-MAP 

5 


18 

4 

9 

46 

42 

4 

H 

M 

B04-MAP 

FT-ITR 

34 

85 

79 

6 

0 

158 

123 

35 

H 

L 

B04-MAP 

D04-PTR 

39 

116 

103 

13 

0 

53 

45 

8 

H 

L 


S04-PTR 

98 

240 

235 

15 

1 

24 

23 

1 

H 

L 

B03-MAP 

ZZZ-PTR 

46 

118 

111 

7 

0 

12 

59 

13 

H 

L 
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(2) ‘ 外部’之间. RouteViews 和 RIS 的对等体 
都不属于中国，称其提供‘外部’视图；国内 BGPView 
則提供‘内部’视图.‘外部’视图差异不大，原因在于 
大多数国外 AS 都是通过少数国内顶級 AS 进入国内 
的，这意味着就‘外部’视图来说，现有数据较充分. 

(3) ' 外部’与‘内部’•在 TB ’图上比在 ‘-UD ’ 
图上呈现更明显的差异，说明内外更新消息已相互 
传递，但未被全部采纳进路由表.对于 ‘-TB ’图，‘内 
部’独自包含的（未被‘外部’采纳的 ）25 条边中，20 
条是与 CERNET 相关的.原因在于‘外部’路由表 
只采纳从国外分别进入 CERNET 和其他国内 ISP 
的路径，而不会采纳 CERNET 与国内其他 ISP 之 
间的链接.同样 . CERNET 的路由表也未采纳其他 
国内 ISP 之间的部分链接. 

(4) ‘-ITR ’与 ‘- PTR ’. skitter 的前者规模明显 
大于后者; DIMES 的情况相反.显然，处理方法差异 
或许导致边丢失，但不会导致点丢失，进一步发现 
S 04- PTR 中丢失的 AS 多为最近新分配的以及属于 
CERNET 的，从而推測 S 04- PTR 未使用最近的路 
由表.考虑到 DIMES 按月发布数据中只给出了链 
接被观測的首末时刻，因此 D 04- PTR 包含了更长 
时期内的测量结果. 

(5) ‘- ITR ’ 之间.更多目标和更具有优势的监 
測点使得 fa strace 发现了更完整拓扑，特别是 p 2 p 
的；而 DIMES 完整性较低则说明当时志愿主机的 
数量优势尚未弥补它们较弱的測量能力.前面基于 
B GP 快照的‘内外’差异并未在此体现.在 ZZZ-PTR 
与 S / D 05- PTR 之间比较也有类似结果. 

(6) FT - ITR 与 ZZZ - PTR . 面向国内的较完整 
快照间差异的潜在原因有两个 ：①实 际拓扑变化； 
( Dip 級測量数据差异.由于没有 zzz - ptr 的 ip 級 
測量数据，考察①，观察在其他数据源不同时期差异 
中有多大比例出现在这两者间差异中.对于边集之 
差，在 B 04/ B 05 -MAP 上未 出现； 在 D 04/ D 05 -PTR 
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上的出现比例为30 %和34 %.由此推測①是次要原 
因，而②是主因. 

(7) 基于 BGP 与基于 traceroute . 前者更完整， 
原因之一是后者的源 AS 都来自于路由表.但在相同 
节点集上，后者比前者发现更多边，特别是 p 2 p 的， 
这与文献 [18] 中的发现相一致.然而，由于前者是可 
信的，较大差异暗示后者可能含有实际不存在边. 
文献 [2] 对此提出改进方法，但难以应用于本研究. 

综上所述，比较 （1) 〜 (3) 显示基于 BGP 更新消 
息的方法是完整且一 致的； 虽然比较 （7) 说明基于 
traceroute 方法发现了基于 BGP 方法之外的大量信 
息，但比较⑷ 〜 （6) 指出基于 traceroute 方法的一 
致性低.由此，尝试给出一幅相对完整可信的中国 
AS 图 CN - MAP : 首先，将6幅来自采集器的图合成 
3 C - MAP 作为图的主体；其次，我们认为 FT-ITR 
与 ZZZ - PTR 交集较可信，加入后增加51条边；最 
后，添加 AP - RR . 

3.2 生灭过程 

本文将历史数据本身的差异抽象为一个生灭过 
程，并将‘生’或‘灭’的边集5划分为两个 子集： 
‘外’边集&，即与生灭节点相连的边；‘内’边集 
及 ，即非生灭节点之间的边.这样，相关拓扑演化模 
型中的‘增长’机制可被重新描述为3 类： ①只有 
Eo ，例如 BA 模型 [12] ;②有 Eo 与 Ei ，例如 GLP 模 
型 [11] ;③及中每条边都与&中一条边有一个公共 
端点，例如 PFP 模型 [9] . 3个模型本身都只有‘生’ 
过程，不过三类机制对‘生’或‘灭’都适用. 

为特征化‘增长’机制，针对#②，统计 £ b 在 
E 中所占的比例 Po . 针对③，一方面，统计 £ i 中实 
际满足_边在历中所占的比例 A ;另一方面，判 
断③是否是②的附带结果，计算 &中 的边在非生灭 
节点中随机选择两端时满足③的概率办，并比较 
Pi 与 Pr ,令 Pi-k = Pi - Pr. 将每幅拓扑与其前一年 
拓扑进行集合运算，结果列于表 3. 


计 算机学 报 


表3基于 BGS > 的拓扑历史 


日期 

19971110 

点 

边 

1 

c-P 

1 

P-P 

0 

点 

边 

生 

Po 

Pi 

Pl-K 

点 

边 

灭 

Po 

Pi 

Pl-R 

19981125 

7 

4 

4 

0 

5 

3 

1. 00 

- 

- 

0 

0 

- 

- 

- 

19991108 

9 

7 

7 

0 

0 

3 

1. 00 

- 

- 

0 

0 

■ 

- 

- 

20001118 

20 


18 

4 

11 

15 

1. 00 

- 

- 

0 

0 

- 

- 

- 

20010228 

28 

30 

26 

4 

9 

10 

0. 90 

0. 00 

0. 00 

1 

0 

0. 50 

0. 00 

0. 00 

20021029 

70 

99 

86 

13 

45 

81 

0. 83 

0. 93 

- 0. 02 

3 

12 

0. 42 

0. 57 

0. 21 

20031029 

95 

143 

123 

20 

30 

71 

0. 79 

1. 00 

0. 20 

5 

27 

0. 15 

0. 30 

0. 03 

20041103 

110 

168 

153 

15 

27 

88 

0. 50 

0. 70 

0. 14 

12 

63 

0. 29 

0. 49 

0. 13 

20051110 

123 

203 

179 

24 

23 

77 

0. 49 

0. 82 

0. 06 

10 

42 

0. 45 

0. 61 

0. 09 

20061103 

156 

260 

239 

21 

42 

94 

0. 59 

0. 90 

0. 14 

9 

37 

0. 24 

0. 21 

0. 12 

20070418 

164 

280 

258 

22 

14 

53 

0. 47 

0. 82 

0. 17 

6 

33 

0. 18 

0. 30 

0. 04 
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(\) 网络表现出持续增长，且新互连关系主要 
为 c 2 p , 但这并非如3个模型所说的只源于‘生’过 
程，而是在‘生灭’共同作用下的结果.尽管‘灭’过程 
在2001年以前不存在，但之后却是不可忽视的，例 
如2003年的边中有44 2004年消失. 

‘生’过程的 / b 始终高于‘灭’过程的，这就 
是说‘生’过程中 AS 加入时所带来的比例高于‘灭’ 
过程中 AS 离开时所带走的，同时也说明‘生’过程 
中内部产生的比例低于‘灭’过程中内部消失的. 

f 3 厂生’过程的 A 较高，说明为新 AS 提供服 
务的提供商同时也倾向于与其他 AS 建立新链接,_ 
而 ‘灭’ 过程的乃较低，说明一个 AS 消失时其提供 
商并不倾向于断开与其他 AS 间的链接.同时，‘生 
灭’过程的 乃 - r 几乎都大于零，即上迷倾向性高于随 
机化结果. 

综上所述，三类增长机制并不完全符合中国网 


络演化过程.中国网络在经历一段只含‘生’过程的 
孕育期之后，进入具有‘新陈代谢’的发展期.其增长 
主要来源于新 AS 的直接加入以及通过其提供商间 
接带来新的互连协议，而协议终止并不完全是受 
AS 退出的影响. 

4复杂网络特征分析 

4 1特征化方法 

复杂网络特征化研究提出了大量图论度量来描 
述网络结构，文献 "9-207 对此进行了全面综述. 
表4中列出了节点相关度量.以此为基础，表5中给 
出了统计特征度量.其中，一个图0含《个节点和 
m 条边.节点为一个整数 i = 1,2,《，•边为一个对 
0,刀 . C ? 表示为邻接矩阵 A .. 若 6(3, 元素 
CLij = 1 ,•否则知= 0. 


表4节点相关度量 


名称 

定义 

含义 

节点度 （node degree) 

di= ^jQij 

连通性 

平均邻居度 

m = ^jatj dj/ di 

邻居连通性 

局部聚集 (local clustering) 

ct = ^j.katj aikajiJ ( di(di - \)) , di>\ 

邻居互连程度 

核数 fcoreness) 

ki = k s 当且仅当 i € 讯 且 7 务 1 .诱导子图 Hk 中 i ditk, 

且执是满足此性质的最大子图 

层次性 

平均距离 

= V lu 是 i 和 j 间最短路径长度 

通信代价 

介数 (betweenness) 

bt = 2, ^丰 dik/Gjk. %*是 j 和 it 间经过 i 的最短路径数 .. 

巧》是 j ‘ /t 间 最短路彳灸数 

承载流量 


在度分布幂律被发现后，一些其他的更复杂的 
特征被相继提出，隨之产生了 一个新问题.•现实网络 
具有某个特征是否只是节点度形成过程中的‘副产 
品’ ？判断方法之一是检查该特征的实际度量值 V 
在具有相同节点度序列的网络总体中的 z - 记分 
f ZScore ) Z ,.. 通常认为当 | Zv | >2时答案是否定的 
并且相应特征是显著的. Z - 记分还有另一个重要应 
用，即判断 v 相对于平均水平的高低. 

4.2 拓扑快照特征比较 

本节比较合成的 CN - MAP 、基于 BGP 的 3 C - 
MAP 和基于 traceroute 的 FT - ITR 三幅有代表性 
快照的复杂网络特征化结果，见表5.为方便描述， 
在上下文中，直接以快照名来表示度量值. 

(1) 平均度.有 FT - ITR > CN - MAP >3 C - MAP . 
我们发现三幅图在这个最基本度量上的差异对随后的 
多个度量上的差异产生深刻影响，因此将 FT - ITR 、 
CN - MAP 、3 C - MAP 的度量值递減的顺序，称为 
‘7序 •反之称为‘逆 J 序 

(2) 度分布.文献发现度分布服从幂律，即 


Pfd 〜 cT 7 •绘制 Pfd 的补累积分布函数于图 1( a ) , 
并以双对数相关系数 A 来评价拟合程度.图显 
示幕律并不严格，0绝对值小于 0. 96, 印從了 Chen 
等〜的结论.曲线高度以及最大度呈 J 序，曲线越 
高表示低度节点比例的曲线头部下降越緩慢，斜率 
r 也就呈逆7序.由于节点度是有限的，较高曲线尾 
部衰減得较快，即越弯曲，所以^呈逆 J 序. 

( i ) 度相关性.描述不同度的节点间如何互连， 
以 n ( d ) / (n - V 正规化 d 并绘制于图 1 ( b ). 近似 
的 〜 f ' 图 lfW 显示三幅快照都具有明显的 
非相配性，即低度节点倾向于与高度节点相连.对于 
A , CN - MAP >3 C - MAP 表明前者比后者多出的边 
倾向位于度相近的节点之间. 3 C - MAP 的 Zi 表明 
非相配性不仅不是‘副产品，并且较显著，而另两幅 
图的情况則相反. 

(4) Rich - Club . 对于高度节点间的互连租度，观 
察图中的 RC 连通性，有 r / n ) 〜 〆 卩】. 较大 
的 J 使得高度节点间互连概率较大，令和 A 都呈 
J 序，同时说明在 CN-MAP 比 3 C-MAP 多出的边 



0.0001 


4 


8 16 
度 (log) 

(f> 度-介数 


32 64 


0.01 0.1 

r/n(log) 

(c) Rich-Club 连通性 


10 

度 （ log) 
(b> 度-平均邻居度 


50 



1 10 50 

度 （ log) 

(a ) 度分布 



核 

(d) 核数分布 



图 1 快照拓扑特征绘图 


中一部分位于高度节点之间. Z / i 表明 RC 现象显著 
性较弱，而且 3 C - MAP 甚至要低于平均水平. 

因此，对于 RC 现象是否存在的争论 [>8] ，其答 
案一方面要看所讨论的是特征本身还是特征显著性, 
另一方面在于所使用的是哪份数据 , Cblizza 等 [7] 所用 
的基于 BGP 的数据的 RC 连通性及显著性都低于 
Zhou 等 [9] 所使用的基于 traceroute 的数据. 

(5) 核数分布.最大核数尤和非树节点比例 
" PIJ 又都呈 J 序，但图 lfd ) 显示 " W 明显不 


同. - FT-ITR 呈谷状 ，3 C-MAP 呈峰状， CN-MAP 
呈波状.这表明 FT - ITR 与另两幅图相比，边缘节 
点少而核心链接密集 . Zr 说明层次性并不显著，但 
CN - MAP 略高于平均水平. 

聚集性.高聚集性和短距离是小世界现象 
的典型特征 n 17 .在节点数相近时， J 较大意味着邻 
居间较高的互连概率，因此7和7都呈 J 序. Zt 的 
情况与乙4和 Z / (的 类似. 

f 7 J 距离分布.图 1( e ) 显示 Pf / J 类似高斯分 




△ FT 1TR 
+ CN-MAP 
□ 3C-MAP 


□□o 9 也么 

义 △ 
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表 5 

快照拓扑特征 





特征 

定义 


度量 

符号 

FT-ITR 

CN-MAP 

3C-MAP 

连通性 

7= ^idi/ N = 2m/ n 


平均度 

1 

6 652 

4. 552 

3. 679 




幕律指数 

T 

2. 068 

2. 193 

2. 203 

度分布 

P( d) = \ {i\ di — d}\t n 


相关系数 

6 

- 0 869 

- 0. 930 

- 0 950 




最大度 

D 

46 

36 

29 

度相关性 

n(d) 度节点 w, 的期望 


幂律指数 

a 

0. 255 

0 243 

0 307 


相配系数 

A 

- 0 331 

- 0. 271 

- 0 301 

4= 边两端度的相关系数 


记分 

Za 

- 0. 068 

- 0. 273 

- 2. 062 


_, 度最大的 r 个点间边数 


RC 系数 

R 

0. 822 

0 689 

0 489 


n) = , 






Rich-Club 

r(r- 1)/2 


■Z- 记分 

Zr 

0.426 

0. 103 

- 1 518 


R = <P(\0/ n) 


幕律指数 

A 

1 285 

1. 262 

1 144 




P[k>\] 

墨 

0.793 

0 763 

0 679 

核数分布 

P(k) =| fi| ki = k}\/ n 


最大核数 

K 

7 

6 

4 




■Z- 记分 

Zk 

- 0.788 

0 953 

- 0 670 

聚集性 

C = ^ iCi / n 


聚集系数 

C 

0 451 

0. 248 

0 164 


传递性 

T 

0. 263 

0. 152 

0 0897 

r= 三角数/连通三元组数 


Z •记分 

Zt 

1.484 

0 965 

- 1 206 




均值 

L 

2.406 

2. 826 

3. 033 

距离分布 

P(D =\{UJ)\ h = l}\/ ( n ( n - V) 


Z •记分 

Z L 

- 1 967 

- 1. 574 

- 0 404 




标准差 

(T 

0. 677 

0 741 

0 823 

度与介数 

b(d) 度节点的期望 


幂侓指数 

/3 

2. 095 

1. 974 

1 992 


△ FT-ITR 
♦ CN-MAP 
□ 3C MAP, 




o . 


»°)®<fe 


(801)( u/ias 

$lfriyq=>M.Ha 


o- 

«01)«啶孩还^ 


d.o 

o 

(80 一 )J8U 
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布.在节点数相近时，3■较大意味着有更多捷径可 
走，所以， z 和0■都呈逆 J 序. Zi —致表明网络实际 
距离要小于平均水平，意味着拓扑中存在着对通信 
效率的优化. 

r 8 J 度与介数.考察节点度与介数的关系，用 
b ( d )/ n(rt - V 正规化 b ( d ) 并绘制于图1 f_f j ,有 
b ( d ) 〜 ( f . CN-MAP 的值最小说明单一方法的 
两幅图都高估了流量分布的不均衡性. 

综上所述，对于特征本身，除核数分布外，三幅 
快照在定性上是相似的，但定量上却不同，并且多数 
大小关系与平均度相关.对于特征显著性，三幅快照 
存在明显的定性差异，特别是 3 C-MAP 在度相关性 
和聚集性方面低于平均水乎，.在定量上，除 Zr 外，其 
他 Z - 记分也都呈逆 I 序或 5■序，但目前缺乏直观 
解释.总之，相对于更完整可信的 CN - MAP , 基于 
traceroute 方法的 FT-ITR 高估了连通性，而基于 
BGP 方法的 3 C-MAP 则低估了连通性. 


4 3特征历史 

早期拓扑规模较小，结构类似树，特征化的统计 
意义较弱.自2002年起的拓扑特征历史列于表6, 
从中总结出4点观察. • 

m 除 Zz 有波动外，网络拓扑在整个演化过程 
中始终呈现与 4. 2节中 3 C - MAP 相类似的特征. 

(2) 最基本的特征7并非如 BA ， GLP 及 PFP 
三个拓扑模型那样固定不变，而是持续增长. 

(3) Z ) 增长速度快于3•，即度分布尺度在增大， 
并且 2< r < 3,说明网络演化具有典型的‘无尺度’ 
网络特征印 7 . 

(4) Za, Zt, Zr 三个 Z - 记分都略微表现出增长 
趋势，意味着外在机制对结构的影响在不断积累. 

由此可见，中国网络是一个持续膨胀 （ 观察 2 J 
的耗散结构，正处在一个‘相’内演化 f 观察1;,受到 
外在机制作用而逐渐远离乎衡态（观察4厂并朝着 
‘无尺度’网络发展 f 观察 3 J . 


表6拓扑特征历史 


曰期 

J 

D 

r 

A 

Za 

R 


T 

Z T 

L 


K 

Zk 

20021029 

2. 83 

17 

2. 92 

-a 33 

- 2. 28 

0. 24 

- 3. 25 

0. 07 

- 0. 93 

3. 28 

- 0. 28 

3 

- 0. 14 

20031029 

3. 01 

19 

2. 98 

- a 30 

- 2. 54 

0. 33 

- 1. 37 

0. 06 

- 1. 42 

3. 45 

- 0. 23 

3 

- 0. 43 

20041103 

3. 05 

00 

2. 33 

- 0. 27 

- 1. 76 

0. ：9 

-1 59 

0. 05 

- 2. 18 

3. 36 

- 0. 82 

3 

- 0. 67 

20051110 

3. 30 

22 

2. 51 

-a 34 

- 3. 50 

0. 29 

- 3. 14 

0. 06 

- 1. 72 

3. 41 

0. 14 

3 

- 1. 57 

20061103 

3. 33 

30 

2. 53 

-a 34 

- 4. 00 

a 33 

- 2. 92 

0 . 06 

- 2.41 

3. 37 

- 0. 12 

3 

- 3. 41 

20070418 

3. 41 

30 

2. 39 

- 0. 34 

- 3. 78 

0. 36 

-1 54 

0 . 06 

- 1 01 

3. 42 

0. 57 

3 

- 3. 48 


5讨论 

在拓扑測量方面，基于 BGP 和基于 traceroute 
的方法本质上是对协议行为的观測，而 Internet 协 
议行为具有高度的复杂性，所以不仅真实拓扑是难 
以获取的，并且对測量数据的评价也摆脱不了经验 
因素.除此根本问题外，相关研究都是集中在改进測 
量技术本身，而我们认为还应该关注另两个问 题：一 
是測量过程与数据处理需要规范化，否则影响数据 
的可用性，例如，‘ - ITR ’ 与 ‘- PTR ’ 的不一致；二是不 
同数据之间需要综合，因为比较结果显示任何单一 
方法或数据源都存在不足，应该通过现有数据的互 
补来提高数据质量.另外，若采用单一数据源进行研 
究，应谨慎考察所得结论是否对数据完整性敏感，并 
且不建议对基于 traceroute 和基于 IRR 方法的数据 
不加筛选的使用. 

在拓扑特征化方面，本文的结果说明任何关于 
Internet 拓扑具备某项特征的结论都应该与其所使 
用的数据联系在一起，否則将不可避免地产生类似 


RC 现象是否存在的争论；同时，也意味着以单幅快 
照的特征化结果为依据的结论都需要更全面的 
验鉦.对于主导不同数据特征差异的‘主特征’，文 
献 [22] 和文献 [23] 分别认为是度相关性和 RC 连通 
性，而本文观察到的是平均度.原因之一显然是三个 
研究的所用数据不同，但有一点需要强 调：当 节点数 
一定时，平均度是最简单的度量，而另两个度量很大 
程度上限制了图的自由度，因此更易于限制其他特 
征，但同时也付出了代价，即令其他特征的比较失去 
了统计意义.尽管由乎均度所解释的差异也可以由 
其他更复杂的特征重新解释，但正如奥卡姆剃刀原 
理所说的，‘如无必要，勿增实体 

在拓扑演化建模方面 3 A 、 GLP 和 PFP 模型都 
忽略了‘灭’过程和乎均度的持续增长.虽然任何模 
型都不得不在真实性与简单性之间做出取舍，但本 
文结果表明‘灭’过程和平均度不仅是最基本的，而 
且它们对结构的影响都是不可忽视的.将来的改进 
模型应考虑到这两点.本文还观察到基于 BGP 历史 
数据的特征未发生定性变化，这意味着演化模型在 
特定时刻快照上进行图论特征验证在定性上是较充 
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分的.最近的财富模型 [24] 和互连决策模型 [25] 虽然提 
出了新的演化机制，但这两个模型中的参量难以被 
直接观測，因而还都属于概念上的. 

6 结束语 

在建立 Internet 理论基袖的过程中，研究人员 
已经逐步认识到从复杂系统角度借鉴物理、生物等 
自然科学研究方法的必要性，但还应该注意到各项 
研究本身也需从综合集成的角度建立联系.本文是 
在综合集成思想指导下在中国网络拓扑研究上的一 
次尝试，今后会将其应用于整个 Internet 的拓扑、流 
量、协议行为的測量与分析之中. 
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Internet AS-level topology is a graph of thousands of 
networks each of which is constituted by many routers and 
maintained by a single political or economical entity. The 
structural and dynamical characteristics of Internet topology 
have received a great interest from the con 平 uter science , 
physics , and mathematics. Researchers generally believe that 
understanding Internet topology will be a key of discovering 
universal laws inside cou 平 lex networks and developing scala¬ 
ble next generation Intcinct. In the computer networking , 
topology measurement and analysis are the basic research to 
eliable prediction of how new technologies ， policies ， or eco¬ 
nomic conditions will in 平 act the Internet's connectivity struc¬ 
ture. Unlike the most of fields in the con 平 uter science deal 
with the formalized problems and develop their coirespotiding 
algorithms , the research on network topology follows method~ 
ologies in physics , i. e. observation , hypothesis , and experi¬ 
ment s. Three open problems need to be solved : (1) There is a 
lack of co 叫 rehensive and realistic topological data ; (2) The 
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framework of describing massive graphs hasn't been con¬ 
structed ;(3) The first principles of the origin and evolution 
of inter and intra - AS topologies seem to be outside topolo¬ 
gies themselves. 

To describe the landscape of Chinese AS-level network, 
the authors adopt the meta-synthetic methodology to analyze 
the differences among a con^rchcnsivc set of Chinese AS- 
lcvel topology snapshots and history. One of key ideas in the 
meta - synthetic methodology is to build the relationship be¬ 
tween the previous isolated works. Although Chinese AS~ 
lcvcl topology is only about 3 % of the global topology, the 
investigation on this small part gave us some insights into the 
macroscopic picture ， which may be concealed by the popula¬ 
tion statistics in the previous works. This work is supported 
by the National Natural Science Foundation of China 
(60203021) and the National Basic Research Pro gram (973 
Program) of China (2007CB311100). 
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基于路由行为分析的网络拓扑测量目标采样 

张宇，方滨兴，张宏莉 

( 哈尔滨工业大学计算机网络与信息安全技术研究中心，黑龙江哈尔滨 150001) 

摘要： 鉴于当前网络拓扑测量实践中目标采样的不充分以及测量模型的失真问题，提出了一类基于路由行为分 
析的目标采样方法： 1) 作为基准的均匀随机采样， 2) 作为优化方法的最小覆盖采样， 3) 针对路径多样性的末跳 
采样， 4) 针对目的前缀多样性的二分采样。基于真实测量数据回放的实验表明，通常的 “/24 选 1” 随机采样丢 
失了一半的拓扑信息，其中，约10%源自路径多样性，其余源自目的前缀多 样性； 最小覆盖采样不仅对路由动态 
性是顽健的，而且长期上优于均匀随机采样。 

关 键词： 网络拓扑 测量； 目标 采样； 路由行为；路由动态性 

中图分 类号： TP393 文献标 识码： A 文章编号： 1000-436X(2009)04-0125-05 

Target sampling based on routing behavior 
analysis in network topology measurement 

ZHANG Yu , FANG Bin - xing , ZHANG Hong-li 

(Research Center of Computer Network and Information Security Technology, Harbin Institute of Technology, Harbin 150001, China) 


Abstract: In order to investigate the insufficiency of target sampling in current network topology measurement practice 
and the distortion of measurement models, a sort of target sampling methods based on routing behavior analysis were pre¬ 
sented, namely, the uniform random sampling as a benchmark method, the minimum cover sampling as an optimal 
method, the last-hop sampling for the path diversity, and the bisection sampling for the destination prefix diversity. Ex¬ 
periments based on real measurement data show that a half of topology information can be missed in the traditional ‘ 1 per 
/24’ random sampling, of which 10% of missed information is caused by the path diversity and the rest is caused by des¬ 
tination prefix diversity. The minimum cover sampling is robust to the routing dynamics and performs better than the 
uniform random sampling at the long-term practice. 

Key words: network topology measurement; target sampling; routing behavior; routing dynamics 


i 引言 

ip 级网络拓扑测量通过收集监测点到目标集之 
间顺序相连路由器的路径信息，为了解网络基础设 
施状况以及认识网络结构性质提供了重要的基础 


数据 [1 ~ 3] 。测量完整性与有效性是研究的核心问题。 
为此， Barford 等 [4] 分析了增加监测点和目标对于完 
整性的边际 效用； Dall ' Asta 等 [5] 采用平均场近似建 
立了测量完整性模型。这2项工作都建议通过增加 
目标采样密度来提高测量完整性。 
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然而，以往的测量实践中还存在2点不足： 1) 
对目标采样的完整性缺乏量化认识。当前最密集的 
目标采样方法是 CAIDA 的 skitter 所采用的从每个 
/24网络中随机选1。显然采样密度还有提高的余 
地。 2) 缺乏完整、有效的目标采样方法。现有方法 
或者采样粒度较粗，例如从 BGP 路由目的前缀中 
采样，或者难以覆盖整个目标网络 IP 地址空间，例 
如以 Web 或 DNS 服务器或客户端地址为目标。前 
一个问题还导致了目前对影响目标采样完整性的 
关键因素尚不清楚，进而阻碍了有效目标采样方法 
的开发和评价。 

为克服以上测量实践中的不足，大量工作对测 
量的完整性 [4 , 5] 、采样偏差 [6 ~ 8] 进行了理论研究。然 
而，这些工作都是基于最短路径树覆盖 （SPTC, 
shortest-path tree coverage) 模型，其中存在2点失 
真： 1) SPTC 模型混淆了拓扑空间与 IP 地址空间， 
其候选目标集为拓扑节点集，但实践中为 IP 地址 
集； 2) 真实的路由行为并非静态的最短路径 [9] ，而 
是具有动态性 [ie] 、 膨胀性 [11] 以及多样性 [12] 等特征。 
这些失真导致所得结论局限在图论意义上，而难以 
帮助理解测量结果背后的内在本质。同时，相关实 
证工作都基于 skitter 数据，因此无法涉及到 skitter 
内在的不完整性。 

网络拓扑测量本质上是测量路由协议行为。基 
于这一认识，本文提出基于对路由行为分析的目标 
采样完整性分析方法。通过在真实的蛮力测量数据 
上回放有针对性设计的目标采样过程，来避免 
SPTC 模型的失真问题，从而提供观察路由行为的 
可能性。首先，设计了 4种目标采样 技术： 作为基 
准的均匀随机采样、作为优化方法的最小覆盖采 
样、针对路径多样性的末跳采样、针对目的前缀多 
样性的二分采样。然后，利用蛮力测量和最小覆盖 
采样来量化均勻随机采样的完整性和效率。接着， 
通过末跳采样和二分采样来对影响完整性的2个路 
由行为因素(路径多样性和子网结构多样性 ) 分别进 
行考察。最后，评价长期路由动态性对最小覆盖采 
样的影响。 

2 目标采样技术及其评价指标 
2.1 均匀随机采样 

从每个/24网络中随机选1，记为‘使用/24’， 
可泛化为均勻随机采样 (URS, uniform random sam- 
pling ), 即“使用 / P”。 为测量从目标网络地址空间 


中采样得到目标集 Z) 的密度，定义采样度为 

p ( D )=32 m \ D \/\ S \) (1) 

其中，|_|是 IP 地址数。这样，“使用/尸”意味着戶 P。 
令狀咖)为采样度为 p 的 URS 目标集。从监测点到 
一个目标 deD 的路为 g ( d }， 至 D 的路集合 
(勿是一个图 G D ( V , E ), 其中 F(gP)) 是节 
点集，五(冰0))是边集。为 测量机 D) 的完整性，定义 
覆盖率 (coverage rate) 为 

^(D)=|E(g(Z)))|/|Efe(5))| (2) 

2.2 最小覆盖采样 

考虑一般化目标采样优化问题一最小覆盖采 
样 (MCS, minimum cover sampling) 问题：给定一个 
目标集 D ,寻找子集 mcs ( D)[D ,使得 
| W a(D)}|=min{|Zr|ZTED 且 g(Z))=g(D)} 。 

MCS 问题与著名的最小集合覆盖 ( MSC, 
minimum set cover) 问题是等价的，作简要证明：将 
集合中每个元素看作图中一条边，并将每个集合看 
作是通往一个目标的一条路，则2个问题之间存在 
——对应。因为 MSC 问题已知是 NPC 的，所以 
MCS 问题也是 NPC 的。将 MSC 问题的一个贪心近 
似算法应用于 MCS 问题： 在每一步，选择一个目 
标 A 使得包含最大数量的未被覆盖的边，将 J 
放入 集合队 直到 giD ^ giD ). 结果集 D % mcs [ D ) 
的近似解。该算法得到一个可证明的近 似比： 
| J D , |/|mc5(£))|=l+ln| { E { g ( p ))\ 后面以 “MCS” （无 
“问题” ） 表示此贪心算法。 

利用 MCS 可以确定优化 URS 的上限。定义目 
标集 》«■(/)) 的效率 (efficiency) 为 

s { p)=\m cs ( urs ( p ))\/\ urs { p )\ (3) 

2.3 末跳采样 

对于测量的不完整性，在 SPTC 模型中只能解 
释为目标采样不足，而本文认为在采样不足背后有 
2个更本质的原因。其中之一是路径多样性 [12] ,即 
一个源一目的对之间有多条可选路径，可提高并发 
带宽并增强路由顽健性。文献 [12] 通过统计源一目 
的对间路径数量来特征化路径多样性，本文则从测 
量完整性角度进行分析。 

假设存在一种理想情况，称作末跳确定路由， 
从源到每条路由的末跳只存在一条静止固定的路 
由。设计一个新的目标采样过程，称末跳采样 (LHS， 
last hop sampling)： 从共享同一末跳的每组目标中随 
机选1。令 / teCD) 为使用 LHS 得到的目标集。在末 
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URS 的效率如图2所示，效率咖)随着 p 的增 
加迅速降低。当 p=24 时，一半网络上的效率小于 
0.4,这意味着至少30%的目标是冗余的。回顾图1 
可以清楚看到，使用 URS 需要在完整性与效率之 



图2均匀随机采样的效率 


20 22 24 26 28 30 32 

采样度 

图1均匀随机采样的覆盖率 


差异，所有随机实验对每个/19网络单独重复执行 
35次取平均值，并采用适合于描述倾斜分布的分位 
数钥匙来绘制结果。分位数钥匙显示在百分之0、5、 
10、 25( 上财经条)、 50( 中间实心圆)、75、90、95 
和 100( 下财经条)处的百分位数。 

3.1 均匀随机采样完整性与效率 

按 pe [19,31] 回放 URS 测量过程，并绘制 
于图1。文献 [5] 基于 SPTC 模型推测，被 
发现边数随目标数量呈线性增长，而实际增长速度 
较慢，图中 p 的中值随 p (目标数的平方），线性增 
长，斜率为 7 .59。其原因在于，实际上新增目标并 
不保证如 SPTC 模型所假设的被接入了新的拓扑节 
点，还可能与已有目标具有相似的路由，例如通往 
邻近 IP 地址的路由可能相似。图1显示，使用/24 
对大部分网络是不充分的，在一半网络上会丢失一 
半的边，而只有10%网络上超过80% o 可见， 
Internet 中较大部分的结构仍是未知的。 


跳确定路由中，容易看出 Efe(toCD)))=Efe(Z>)) ; 而 
在真实环境中，路径多样性使得 |Efe(/fc(D)))l < 
|E(gCD))|。 这样，为测量其影响，定义动态覆盖率 

(dynamic coverage rate) 

0(D)= 卜 |E_s_|/|EfeP))| (4) 

2.4 二分采样 

目标采样不足背后的另一个路由行为因素是 
目的前缀多样性，即路由表中目的网络地址前缀长 
度是可变的，而并非如 URS 那样是固定的。目的 
前缀结构越细碎，完全覆盖所需目标也就越多。 

为推断一个给定前缀在路由表中目的前缀结 
构，设计了另一个目标采样过程，称二分采样 (BSS, 
bi-section sampling)。 其关键思想在于确定一个前缀 
p 为单个目的前缀的2条经验判据。 

1) 强判据不存在包含 p 的更大目的前缀，并 
且到 p 中首尾主机路径的末跳相同。 

2) 弱判据声明一个终止长度 7T。 长度不小 
于 7T, 且在0中，一个目标 d 被探测后，探测另一 
个目标，时，未发现新边。 

BSS 过程如 下：在 //网络中一端主机 A 已被探 
测后，探测其另一端主机若强或弱判据成立， 
或/>30,则 结束； 否则，二分前缀，以 BSS 递归探 
测2 个分别包含和/的 //+1前缀。令 Zws(7T) 为参数 
Tie [20,30] 的 BBS 所得目标集。 

对完整性的影响，需根据强判据是否“完备”, 
即在 BSS 所推测目的前缀中，到两端主机的路径是 
否包含中间主机的路径，来从2个方面做 判断： 一 
方面，若完备，假设网络被划分为一组 /P 子网，有 
p(bss(jr))=P+l , 意味着 /)<P 的 URS 将丢失部分信息。 
另一方面，实际中可能不完备，有 p<P 的 URS 不 
一定比 BSS 丢失的更多信息。比较在目标总数相同 
的情况下（注意在每个网络上， URS 的采样度相同, 
而 BSS 的不同），两者的覆 盖率： 若某网络上 
♦♦))>〆縦 (p(M>)))) ’贝 1 J 说明在该网络上 URS 
的不完整性是由前缀多样性造成的。 

3实验结果与分析 

尽管大规模网络上绝对完整的测量是不可能 
的，但从目标采样角度，对于单监测点，若覆盖了 
所有路由目的前缀，则是相对完整的。由于目的网 
络前缀最长为30,为获得完整数据，使用 /31 采样 
于2005年7月，从成都监测点蛮力测绘了随机挑 
选的660个/19网络。为反映结果在不同网络上的 
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图4二分采样的采样度 
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图6最小覆盖采样的覆盖率 
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3.3 路由动态性对最小覆盖采样的影响 

在实际应用中， MCS 要依赖于以往测量结果, 
这里从首轮结果获得然而，最大问题是路 
由动态性。文献 [10] 通过测量研究报告，半数的端 
到端路径在一周之内变化，这使得也随时 
间改变。为考察路由动态性如何影响完整性，一 
方面，观察在后续轮次上 9>( wcs ( D )) 的变化，另一 
方面，比较在目标总数相同时（在每个/19网络上, 
URS 的采样度相同，而 MCS 的不同 ) URS 与 MCS 
的覆盖率。 

收集 skitter 的 b-root 监测点上自2004年12月 
起3个月间的原始测量数据。为降低计算消耗，从 
中随机采样了 660个/19网络。回放结果显示，半 
数网络上的 mcsiD ) 少于10个目标。图6中，最小 
覆盖采样的覆盖率随时间略微降低，但其 
在75%的网络上始终超过了 80%。图7中 URS 与 
MCS 之间覆盖率之差表明， MCS 的覆盖率在75% 
的网络上都高于 URS 。 


-100 
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图5均匀随机采样与二分采样的覆盖率之差 


考察目的前缀多样性，首先假设强判据是完备 
的，回放 BSS 并绘制 p ( Z ^(7 T )) 于图4。弱判据的效 
果在网络被二分为/24后快速消失。特别地，当 tt =30 
弱判据被取消， p 中值大于28,即半数前缀被分为 
小于/27的目的前缀，而回顾图1中？)(齡(28))接近 
1。这就表明，当强判据完备时目的前缀多样性是 
信息丢失的主因。在强判据不完备的情况下，考察 
URS 与 BSS 的覆盖率之差。图5显示 URS 与 BSS 
的覆盖率之差独立于弱判据，两者各有一半机会覆 
盖更多。这说明，在半数网络上 URS 的不完整确 
实源自目的前缀多样性。 



间做出权衡，这是目前大规模网络拓扑测量所面对 
的主要挑战。 

3.2 导致不完整性的路由行为因素分析 

考察路径多样性，按 LHS 回放测量过程，得 
到的动态覆盖率累积分布函数，如图3所示。结 
果显示，路径多样性对大多数网络上的覆盖率都 
有影响，但动态覆盖率0的中值约为10%,最大 
不超过50%,而图1中在一半网络上使用/24的覆 
盖率低于50%,所以路径多样性不是造成不完整 
的主要原因。 
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图 7 最小覆盖采样与均匀随机采样的覆盖率之差 

上述观察指出，由 MCS 构造的目标集较小， 
具有高覆盖率，可以经受住长期路由动态性的影 
响，并优于 URS 。 

4结束语 

本文基于路由行为分析对目标采样完整性进行 
了研究，通过克服 SPTC 模型的失真问题，给出了关 
于目标采样完整性与优化评价结果，更剖析了其背后 
复杂的路由行为因素。然而，完整、有效、准确的拓 
扑测量仍然是网络研究中的一项巨大挑战。最近受网 
格启发的拓扑测量项目 dimes 1 2 [3] 4 5 , 联合个人计算机来 
测量网络，期望今后更多志愿者的加入并配合新的优 
化采样方法会降低对高采样度的需求。 

参考文献： 


IP topology measurements [A]. IEEE INFOCOM 2003 [CJ. 2003. 
332-341. 

[7] CLAUSET A, MOORE C. Accuracy and scaling phenomena in inter¬ 
net mapping[J]. Physical Review Letters, 2005. 94(1):018701-4. 

[8] ACHLIOPTAS D, CLAUSET A, KEMPE D, et al. On the bias of 
trace route sampling: or, power-law degree distributions in regular 
graphs[A]. 37th ACM STOC[C]. Baltimore, MD, 2005. 694-703. 

[9] LEGUAY J, LATAPY M, FRIEDMAN T, et al. Describing and simu¬ 
lating Internet routes [J]. Computer Networks, 2007, 51: 2067-2085. 

[10] PAXSON V. End-to-end routing behavior in the Internet[J]. 
IEEE/ACM Transactions on Networking, 1997,5(5):601-615. 

[11] SPRING N, MAHAJAN R, ANDERSON T. The causes of path infla- 
tion[A]. ACM SIGCOMM 2003[C]. Karlsruhe, Germany, 2003.113-124. 

[12] RENATA T, KEITH M, STEFAN S, et al. Characterizing and meas¬ 
uring path diversity of Internet topologies [A]. ACM SIGMETRICS 
2003[C]. San Diego, CA, 2003. 304-305. 

[13] CORMEN T H, LEISERSON C E, RIVEST R L, et al. Introduction to 
Algorithms[M]. MIT Press, 2001. 

张宇 （1979-) ，男，河北乐亭人，哈 
尔滨工业大学博士生，主要研究方向为网络 
拓扑测量与建模。 


作者 简介: 





[1] BURCH H, CHESWICK B. Mapping the Intemet[J]. IEEE Computer, 
1999. 32 (4):97-98,102. 

[2] BRIODO A, CLAFFY K. Internet topology: connectivity of IP 
graphs [A]. SPIE International Symposium on Convergence of IT and 
Communication 2001 [C]. 2001.172-187. 

[3] SHAVITT Y, SHIR E. DIMES: let the internet measure itself [J]. 
SIGCOMM Computer Communication Review, 2005. 35(5): 71-74. 

[4] BARFORD P, BESTAVROS A, BYERS J, et al On the marginal 
utility of network topology measurements [A]. 1st ACM SIGCOMM 
Workshop on Internet Measurement[C]. 2001.5-17. 

[5] DALL’ASTA L, ALVAREZ-HAMELIN I, BARRAT A, et al. Ex¬ 
ploring networks with traceroute-like probes: theory and simula¬ 
tions [J]. Theoretical Computer Science, 2006, 355 (l):6-24. 


方滨兴 （ I 960-) ，男，江西万年人， 
J | 哈尔滨工业大学教授、博士生导师，主要研 
究加为眺信息安全、并行处理。 



张宏莉 （1973-) ，女，.吉林榆树人， 

I 哈尔滨 L 业人学教授、博士 生导师 ,+:要研 
| 究方向为网络测量、并行处理、网格计算。 




o o 
8 6 

%/糊~#_ 鹏 


o o o o o 

4 2 2 4 


[6] LAKHINA A , BYERS J W , CROVELLA M , et al . Sampling biases in 







□□□□□□□□□□□□□□□□□□ 


□□□ □□□ □□□ □□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 150001□ 

E-mail[]dan@pact518.hit.edu.cn 

□ □ □□□□□□□□□□□□□□□□□□□□□□□□□□ INSE Dan interactive net search engine for Chi¬ 

nese textQXl □□□□□□□□□□□□□□□□□□□□□□□□□ BP □□□□□□ INSE □□□□□□□□□□□ 
INSE □□□□□□□□□□□□□□□□□ INSE □□□□□□□□□□□□□□□□□□□□□□□□□□□ niNSE 

□ □□□□□□□□□□□□□□ BP □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□ □□□□□□ □□□ □□ □□□□ bpd □ 

□ □ □ n 1002-8331-D2003D10-0148-03 □ □ □ □ □ A □□□□□ TP393QTP18 

An Interactive Net Search Engine for Chinese Text 
and Its Self-learning Ability 

Du Aning Fang Binxing Hu Mingzeng Yun Xiaochun 

□National Key Lab on Computer Context Information Security[]Harbin 150001 口 
Abstract D The INSE []an interactive net search engine for Chinese textQpresents in this paper is a kind of net search 
softwareQVector Space ModelDChinese word segmentation based on automata and the Back—propagation algorithm of Ar¬ 
tificial Neural Networks are the main characteristics of INSEQThis paper focuses on the self—learning ability of INSE. 
Chinese word segmentation based on automata is INSE^s new conceptQwhich can efficiently segment Chinese word with 
maximum matching.INSE’s self—learning ability comes from the adoption of Back propagate algorithmQwhich when used 
in an interactive net search engineQgives more exact query results. 

Keywords□ Vector Space ModelDword segmentationDBP network[]automata[]neural networks 


i □ □ 

Internet □□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□ □ WWW □ □ □ □ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □ “Rich Data Poor Information ” 口 □□□□□□ DWWW □ D 

□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □ □ AltavistaQInfoseek □□ □□□□□□□□□□□□□□□ 

□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□HI 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□ 

mm □□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□ 

圆口 □□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□ 


2 □□□□□□ 

□ □□□□□□□ WWW□□□□□□□□□□□□□ 

□ □□□□□□□□□□□ [1 D □□□□□□□□□□□□□□ 

□ □□□□□□□□□□□ www □□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□nnnn 

□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□CD AltavistaDYahooQInfoseek 
□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□CD 

□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□do 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □ 

□lQLimbex □□□□□□□□□ webcompass 口 □ □ □ □ □ 

□□□□□□□□□ 43 □□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□[ID 

□ □□□□□□□□ □□□□□□□ ANDDORDD □ □ □ □ □ 
ANDQOR[]NOT[]NEAR □ □ 


□ □□□□□□ 863 □□□□□□□□□□□□□□□□ []863-104-02-01 口 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ □□□□□□□□□□□□□□ 

( C )1994 边 6 l@(Rronic Publishing House . All rights reserved , http :// www . cnki.net 
148 2003.10 □□□□□□□□ 



□2DD Agent technologiesDMEB□ □ □□□□□□□□ 

Copernic98nn □□□□□□□□□□ 19 □□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□ and n n dor □ 

□ □□□□□□□□□□□□□□□□□□□□□□□ QTITLEn 
URLn □□□□□□□□□□ 

nnnnnnnnnnnnnnnnnnnnnnn 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□a 
□□□□□□□□□□□□□□□□□□□□□□□□□□a 
□□□□□□□□□□□□□□□□□□□□□□□□□□a 

□ □□□□□□□□□□□□□□□□□□□□□□□□□a 
□□□□□□□□□□□□□□□□□□□□□□□□□□a 
□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□no 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□ 

□ □□□□□□□□□□□□□□□ insed □ □ □ □ □ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□a 

□ □□□□□□ bpd n n inse □□□□□□□□□□□□ 

INSE □□□□□□□□ UNSE □□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□ 

3 INSE □□□□□□□□□□ 

3.1 INSED □ □ □ □ 

INSE □□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□a 

□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□a 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□a 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□ 

3.2 INSE □□□□□□□□□□ 

INSE □□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 


□ 


□1 □□□□□□□□□□□□□□□□ 

□im □□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□[ID 

□ □□□□□□□□□□□□□□□□□□□□□a 

圆 □□□□□□ □□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

_ □□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□do 

■□□□□□El □□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□on 
□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□ 口 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

_ □□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□no 

□ □□□□□□□□□□□□ 



: j、ii 典 


被训练文本向置表 恃分突文本向 S 表 



训绝后神经网络 

□ 2 □□□□□□ 


□ □□□□□□□□□□□□□□□□□□□□□□[ID 
□ □ □□ □ 2口口 


ftlScffbfiic^PSSlishing □口 

□ □□□□□□□ 2003.10 149 


□ □□□□□□□□ 


总控模块 

111 111 

机器人搜索 

语料庳 

词典维护 

特征提取 

文本分类 

系 统设霣 

丄丄乂 


上丄丄 

丄 




阚值设 g 

# 数设直— 
目录设直 
手动执行 
自动执行 
特征向重修改 I 
特征向重生成 I 
文本预处理— 
词典导入— 
专业词词典— 
主词典维护 i 

语料库维护— 
语料库初始化 

分类存放 

网页下戟 
搜索链接表获取 










































































































□□□□□□□□ 

ffim □□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□ 

_ □□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
閲口 □□□□□□□□□□□□□□□□□□ 

3.3 □ □ □ □ 

□□□□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□a 

□ □□□□□□□□□□□□□ nVSMDVector Space ModelDQ 

VSM □□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ urmn-rnnu □□□□□ ^ □口 

□ □□□□□□□ %□□□□ r 1 nr 2 D...r„D 

□ □ □ □口 □□□□□□□□□ □口 口職口 

• •XD □□□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□a 

□ □□□□□ 口順厕心 □… wm □□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□a 

□□□□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□a 

□□□□□□□□□□□□□□□□□□□□□□□□□□ 

3.4 □□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□on 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□a 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □ □ □ 

□ □□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□[ID 

□ □□□□□□□□□□□□□□□□□□□□□□□□□a 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□ 

INSE □□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□[ID 

□ □□□□□□□□□□□□□□□□□□□□□□□□[ID 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□[ID 

□ □□□□□□□□□□□□□□□□□□□□□□□□[ID 

□ □ □ 

□ □□□□□□□□ 〃□□□□□□□□ & □□□□□□ 

□ □□□□□□□□□□□□□□□□□□ 口 □□□□ 

□ □□□□□□□□□□ 2.5mb/d □ □ □ □ 92%nnn □ □ □ 
293KB□□ □ □ □ □ 30MBDn □□□□□□□□□□□□□ [3 CI 
□□□□□□□□□□□□□□□□□□□□□□□□□□CD 

□ □□□□□□□□□□□□□□□□□□□□□□□□[ID 


3.5 □□□□□□□□□□ 

INSE □□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□CIO 

□ □□□□□□□□□□□□□□□□□□□□□□□□[ID 

□ □□□□□□□□□□□□□□□□□□□□□□□□[ID 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□a 

□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□ □口 BPQback propagation □口 □□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ ㈣ II □ BP □□□□□□□□□□□□□□□□□□□ 30 

□ □□□□□ BPD □□□□□□ □□□□□□□□□ F, 

[>0=-,^—□ □□□□□□□□□□□□□□□□□□□□ e 
i+e~ } 

□ □ o.i □□ □ □ a □ □ o.snn □□□□□□□ 5oo □ n n n 

□ □□□□□□□□ bp □□□□□□□□□□□□□□□ 

□ □ □ □ □ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□ £[]□□□ 

□ □□□□□ £=e+lDD □□□□□ MU □□□□□□□ N=0U 

while E>s&N<M do 

□ □□□□□□□□□□□ 

□ □□□□□□□□ 

0, =F { (U F □ □ □ □ )□ 

□□□□□□□□□ 

0 2 =F 2 (U □□□ 口 o, □□□□□□□『□□□□) 口 
□□□□□□□□□ 

□ □□□□□□□□ A 0 W=(l-_™-_□ 

□ □□□□□ E=E+(Y[q-0 2 [i]f 

□ □□□□□□□□ □□□□□□□□□ 

A A [i]=2(^M*A 0 [/] )□ 

□ □□□□□□□ Wlk^W^+aO^M^U 

□ □□□□□□□ 

□ 3 BP □□□□□□ 

3.6 INSE □□□□□□□□ 

『□□□□『□□□□□ googleDD □□□□□□□□ 
5236 □□□□□□□□□□□□□ 7355 □□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ 337 □□□ 
□□□□□□□□□□□□□□□ 7345 □□□□□□□□□□ 

□ □□□□□ io%nn □□□□□□□□□□□□□□□□ 

70%Q □□□□□□□□□□□□□ 5347 □□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□ 
INSE □□□□□□□□□□ 159 □□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□ 5o%uu □ □ □ □ □ 532 n n 


汉別马毋边 6 lfliftAcademic Journal Electronic Publishing House . All rights reserved . http :// wwwS 3 ifii . i ?4? □口 
150 2003.10 □□□□□□□□ 



2. U □ -Internet □□□□□□□□ [J ] •口 □□口 []1999 口 18[]5 口 

3. 口 □□□•□□□□□□□□□□□□□□□□ [J ] •口 □□□□□□ D 
2000-12 

4. 口 □□.□□□□□□□ □ [M ]. 口 □□□□□□ D2001 

5. Mark W Craven.Using neural networks for data mining[J].Future Ge¬ 
neration Systems[]1997 

6. Rob Law.Back - propagation learning in improving the accuracy of 
neural network-based tourism demand forecasting. Tourism Manage- 
mentQ2000 

7. the CN2 Induction Algorithm.http[]// www.cs.utexas.edu/users/pclark/ 
papers/cn2.pdf 


9 10 i 

文本瑞号 


制 65 
^ 60 

每 55 


100 

95 


□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ □□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
_ □□□□ GIS □□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□ 

»□□□□□□□□□□□□□□□□□□□□□□□□ 口 

□□□□□□□□□□□□□□on 

□ □□□□□□□□□□□□□□□□□□□□□□do 

□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□a 


□□ □ i 5 o n □ 

□□□□□□□□□□□□□□□□□□□□□□□ 
86.4%QD □□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □ □ □ INSE □ □ □ □ □ 

□ 4nnnnnnn bp □□□□□□□□□ cN2nn □ 


□ □ []2001[]37[]2[1]126~129 

2. D [J].Q □□□□□□□□ 

2001-02D20-23 

3. 口 mGB/T18508-2001[IS] 


□ □□□□□□□□□□□□□□□□□□□□ 4 Q □ 11 D 13 D 

刚 □□□□□□□□□ BP □□□□□□□□□□□□□ 

nnnnnnnnnnnnnnnnnnnnnn bpd n n 

□ □□□□□□□□□□□□□ dinse □□□ bp □ n n n n 

□□□□□□□□□ 


□4 □□□□□□□□□□□ 

□ □□□□□□□bp □□□□□□□□□□□□□ □口 

CN2 □□□□□□□□□□□□□□□□ □□□□□□□□□ 



□□ □ 176 □ □ 

□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□[ID 

□ □□□□□□□□□□□□□□□□□□□□□□□□[ID 

□□□□□□□□□□□□□□□□□□□□□□□□□□a 
□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□.□□□□□ D2002 □ 4 □ □ 


[J ]. 口 □ □ □ 

□ □□口 D2001[]37(10)[]42~87 

2. Gil HeldDKent HundleyDCCNUD-D D D D D D -Cisco Access List 
Field Guide[M].D □□□□□□ []2000[]24~89 

3. D □ □ Cisco □ □ □ □ Access-list □□□□□□ [J] •口 □ □ □ □ □ 

2001[]21[]2D[]61~63 

4. Cisco company.CISCO IOS NETWORK SECURITY[M].D □ □ □ □口 

□ 02001D211-253 


5. Gilbert Held DKent Hundley.0 0 0 00 0 0 0 0 .Cisco Security Ar- 

^^^^2019 China Academic Journal Electronic Publishing¥^5te^¥lfl ㈣ 激 9 口 1 Pftt^Wwww.cnki.net 

212 2003.10 □□□□□□□□ 


r 

I 

i 

I 


:： 



D 

D 


D D 
D D 
D D 
D D 
□ □ 
D D 
D D 
□SE 
□IN 
D 
D 
D 

□□□ 

□ 口 

□ 口 

□ □ 
□ □ 
□ □ 

□ E 

1 s 

M N 
sIr 

V 

D 

□ □ 
□ □ □ 

□ □ p 
B 

4 


□ □ 
□ □ 

□ 口 

□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 

□ □ 

D 


□ 

D 

口 

D 

D 

口 

口 

D 

D 


D 


D 

D 


D 


口 

n o 
□□□ 
D D 


D 

口 

□ 5 

□ □ 
D 2 
□00 
□□2 
□ □ 
D D 
D D 

Dnnnn 
D D 
D D 
D D 
D D 
□ □ 
D D 
D D 
D D 


口 

口 

口 

D 


□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

I —- 8 

c 9 
□19 
□ 


)6 


□ 

□ 


D 

D 


□ 

□ 

D 

□ 


.□□ 


□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
D 5 
□ □ 
□ □ 
□ □ 
□ □ 

^□口 

mu □ 

□ □ 

□ □ 

D D 

□ □ 

□ □ 

□ □ 

D D 

□ □ 

□ □ 

□ □ 
□ □ 
□ □ 
D D 


□ □ 
D D 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
2 □ 
N o 
D 


nc 


D 


1 A 

D 

D 

D 

D 

D 

D 

D 

D 


D 


□ 

D 

□ □ 

□ □ 

□ □ 

□ □ 

□ □ 

□ □ 

BPD 

□□□ 
D D 
□ □ 
D D 


□ 

口 

□ 

□ 

□ 

口 

□ 

□ 


□ □ 
11 

□ 1 

□□□ 
2 

□00 
D 2 


□ 

口 


□ 


D 

D 


D 


□ 

□□□ 

□ D 

D D 

□ D 

D D 

□ □ 

□ □ 

□ □ 


□ 

□ 

□ 

□ 

□ 

.□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

D 

□ 

□ 

.□ 

□ 

□ 

□□□ 

□ □ 


□ 

□ 


□ 

.□ 


欲凝狻遂褰簽 


- ...V. 
































第 38 卷第 3 期 
2011 年 3 g __ 


计算机-学 
Computer Science 


Vol . 38 No . 3 
Mar 2011 


P 2 P 网络数据污染综述 

王勇 1 云晓春 2 秦志光 1 郭莉 2 程红蓉 1 
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摘要 对等网络应用 ( Peei ^ to-Peer networking applications ， P 2 P ) 相关的安全威胁已经成为广受关注的网络安全课 
题。 P2P 网络共享文件内容的数据污染给 P2P 网络安全带来新的 难题： 例如，如何快速定位发现污染数据，分析污染 
数据特征模型，寻求高效低代价的数据污染治理策略等还有待进一步深入分析研究。针对 P2P 网络数据污染，从污 
染数据监测、数据污染特征模型分析以及数据污染治理策略等三方面，阐述了当前该邻域的主要研究动态，分析了数 
据污染相关研究的关键问题，最后指明了该邻域未来可能的发展方向。 
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Survey on P 2 P Network Pollutions 

WANG Yong 1 YUN Xiao-chun 2 QIN Zhi-guang 1 GUO Li 2 CHENG Hong-rong 1 
(Dept, of Computer Science and Engineering,University of Electronic and Science Technology of China,Chengdu 610054,China) 1 
(Institute of Computing Technology，Chinese Academy of Sciences,Beijing 100080,China) 2 

Abstract In recent years , the security issues of Peer - to-Peer networking applications ( P 2 P ) are becoming the hot spots 
of network security research . The pollution and poisoning problems of shared content in P 2 P network present a new 
challenge for P 2 P networking security：such as how to find and locate the polluted data,how to modeling the pollution 
and poisoning process»and how to prevent the spreads of polluted contents efficiently etc . In this paper , the up - to-date 
researching results were discussed in detail from the three main angles as the polluted data measurements»the modeling 
processes,and the pollution constrain strategies；some key issues related to P 2 P network pollutions were analyzed . Fi ¬ 
nally > the paper pointed out the future possible researching trends on P 2 P network pollutions . 

Keywords P 2 P network , Pollution and poisoning , Network measurements , Network security 


i 引言 

随着对等网络应用在 Internet 网络上的广泛流行，与之 
相关的诸多课题受到研究者和领域专家的密切关注。对等网 
络应用程序,通过充分利用网络中客户端的带宽、存储空间和 
计算能力，为用户提供可扩展的、高效的信息访问 机制。 作为 
一类大规模、自组织、高度动态的复杂网络系统，对等网络在 
Internet 上的大量部署和应用，严重威胁着 Internet 网络的信 
息安全 [1] 。首先， P2P 网络改变了原有的 Internet 流量模型， 
造成网络流量的极度拥塞，影响了 ISP 的服务 质量; 其次，大 
量利用 P2P 网络传播的病毒、木马已经成为 Internet 上的一 
个巨大安全 隐患; 最后，对等网络中的共享资源，往往缺乏有 
效的监管机制，大量的数宇媒体被非法传播，或受到恶意篡 
改，给知识产权拥有者造成巨大的经济损失。近年来，音乐媒 
体公司纷纷发起对 P 2 P 文件共享系统的声讨，寻求各种 P 2 P 
网络系统的封杀方案，包括利用法律起诉 P2P 网络服务公 
司，追踪 P2P 网络下载用户，甚至雇用专门公司使用技术手 
段，对 P2P 网络发起大规模恶意攻击等等。 

P 2 P 网络中的数据污染已经成为一个重要的安全问题， 


主要安全威胁表现在 ：（1) P 2 P 网络中存在的污染信息，严重 
降低了 P 2 P 网络系统的性能，受污染的文件可能携带病毒、 
木马等恶意程序，威胁 P2P 网络终端用户的安全； （2) 由恶意 
攻击者发起的数据污染攻击，可能造成 P2P 网络系统中大量 
节点失效，进而使整个 P2P 网络崩溃，特别地，数据污染攻击 
已经成为基于离散哈希表 ( DHT ) 的结构化对等网络系统最 
大的安全威胁之一； （3) 由数据污染引发的拒绝服务攻击，可 
以湮没 P2P 网络中的共享资源，增加 Internet 网络的流量负 
担，从而降低 ISPS Internet 用户的服务质量。 

近两年， P2P 网络中的数据污染问题，受到 P2P 网络系 
统开发商、 Internet 服务提供商 ( ISP ) ,以及信息安全研究人员 
等多方密切关注，对数据污染攻击模型化研究的需求来源于 
以下几个方面：（1)通过解决 P2P 网络中大量存在的数据污 
染问题，可以增强 P2P 网络应用的性能和安全性，为网络用 
户提供高效的共享资源定位和分发服务； （2) 掌握 P2P 网络 
中数据污染攻击的特征、传播方式、影响范围等知识，能够为 
ISP 进行有效的流量规划和用户服务质量管理提供依据，提 
高 Internet 网络的使用 效率; （3) 从国家网络信息安全角度考 
虑，管理监管部门需要了解 P2P 网络中数据污染问题对信息 
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安全的危害性，需要在线管控 P2P 网络行为，促进 P2P 网络 
应用协议的标准化进程，对数据污染攻击的深入分析是实现 
这些目标的前提。 

P 2 P 网络数据污染攻击的模型化研究是一项复杂的工 
作，设计到网络测量、图论、算法设计、统计学、数据挖掘、可视 
化以及数学建模等多个研究邻域。相应的研究内容可以归纳 
为3个问题:（1)如何有效地识别数据污染，准确而完整地获 
取 P2P 网络应用系统中数据污染状态 数据； （2) 如何对 P2P 
网络中数据污染扩散特征进行描述； （3) 如何有效地抑制 P2P 
网络中的数据污染，防范数据污染攻击。这 3 个问题分别对 
应于 3 个研究方向， B 卩: P2P 网络数据污染测量、 P2P 网络数 
据污染特征分析、 P2P 网络数据污染治理。其中， P2P 网络测 
量是数据污染特征分析的基础；数据污染特征分析是数据污 
染模型化的核心; P2P 网络数据污染防御是模型化的应用目 
的。本文将对这 3 个研究方向分别进行论述。 

2 P 2 P 网络数据污染监测 

P 2 P 网络数据污染测量分类方法有 多种： 根据测量方法 
可以分为主动测量和被动 测量; 根据测量系统自身的部署情 
况，可以分为单点测量和分布式多点 测量; 根据对污染数据的 
判别算法，可以分为基于消息统计的污染测量、基于比较分析 
的污染测量、基于智能学习的污染测量等。本节根据测量对 
象的不同，可以分为文件型数据污染测量和流媒体数据污染 
测量。 

文件型数据污染测量是目前最为关注的数据污染测量问 
题。2005年， KaZaA 网络中的蓄意污染攻击已经造成系统中 
50%〜80%的文件受到污染 [2] ; e Donkey 网络中有50%左右 
的热门文件受到索引毒害攻击 （index poisoning attack ) D ’ 4] ; 
Seungwon 等人 M 建立了 eDonkey 网络爬行器 - Krawler ， 测量 
分析了 P 2 P 病毒在 eDonkey 网络中的流行 情况 ; UC Berkeley 
的 Christin 等人 [ «采用主动/被动相结合的方式测量了 4类 
主流 P 2 P 文件网络 （ eDonkey ， Ovemet，FastTrack 和 Gnutel - 
la ) 中的数据污染，从共享文件的可用性、稳定性、下载时间等 
几个方面分析了这4类 P 2 P 网络的污染态势，此外，还分析 
了网络拓扑结构与数据污染扩散之间的内在联系 。 Dhungel 
等人 [7>8] 通过构造 BT 网络 utorrent 客户端爬行器（主动测 
量)和分析 BT 网络 Tracker 服务器日志信息(被动测量)的方 
法，测量分析了 Bittorrent 网络中 kechers 节点遭受数据污染 
攻击的情况，分别分析了 BT 网络数据污染的安全现状。 

随着基于 P2P 技术的流媒体应用日益流行， P2P 流媒体 
网络中的数据污染状态也很不乐观。文献 [9] 实现了测量 
PPLive 网络的爬行器 ( Crawler ) ，通过构造 PPLive 客户端程 
序参与流媒体业务，来获取网络中邻居节点的信息和消息数 
据。测量结果 显示: PPLive 网络同样在遭受数据污染攻击， 
并且与网络中节点的物理位置、视频内容、在线时间、社会新 
闻事件等因素有密切的关系。 

P 2 P 网络的大规模、自组织、高度动态等特性使数据污染 
测量变得非常困难。目前，对数据污染的测量仍处于观测、总 
结特性的阶段，还未形成完整的测量框架体系，此外，也未形 
成完整的测量数据可靠性、完整性、准确性的评价指标和方 
法。 


3数据污染模型 

近年来， P2P 网络中数据污染问题越来越受到关注，相关 
的模型化分析主要关注数据污染的特征、扩散过程、敏感性、 
危害性等方面的属性。一般地，可以从文件版本污染攻击和 
网络毒害攻击两个方面建模来描述数据污染的扩散过程，相 
应的数据污染模型可以分为两类 :一类 是基于免疫学原理的 
经典模型，包括文献 [10-12] 中建立的模型；另一类通过描述 
节点状态的变迁来展现数据污染在 P2P 网络中的扩散过程， 
包括 Kumar 等人在文献 [13] 提出的流模型 （fluid model ) 及 
Shi 等人在文献 [14] 中建立的状态模型等。 

3.1 基于免疫学原理的经典模型 

对于第一类经典模型来说，是对 SIR 传染病模型的应用 
和拓展，将 P 2 P 网络中的节点分为3种， BP : 易感节点 （ Sus ¬ 
ceptible peers )、 感染节点 （Infected peers ) 和免疫节点 （ Recov ¬ 
ered peers )。 这3种节点的相互转换关系如图1所示。 



图1 P2P 网络中3类节点的转换关系 

由于 P2P 网络中的文件受到污染攻击，节点可能下载到 
原版文件和受污染的文件。当节点下载了受污染的文件版本 
时，它即加人感染节点 群体; 同时，节点通过再次尝试或放弃 
下载等方式，可以加人免疫节点群体。 

设网络中对共享文件 i 感兴趣的节点数量为 M ,， 初始时 
原版和污染版的文件数量分别为乂（0)和 N 4 (0)， 在时刻~ 
网络中3类节点的数量分别为 SU ), Kf ) 和 i ?( t ) , 通常: S (0) 
= M ,, 1 ( 0 ) = i ?(0) =0。则可以建立如下微分方 程组： 

U M N b it) 

AU)_ N a ( 0+N s (0 

^^ = -A s S(t)+A r ia) 

= P,, U)X s Ht) - (A, +A.) I(.t) 

< ( 1 ) 
^^=a-p b (t))AsS(t)+^i(t) 

~hpb (t)^*S(f) —(Ar +A^ )pdbp*Ht) 

尸) n 办⑴) 

基于免疫学原理的经典模型，通过选择合适的微分方程 
组因数，能够较好地描述版本污染和毒害攻击在 P2P 网络中 
的扩散过程。然而， P2P 网络作为复杂网络系统的一个实例， 
其网络拓扑结构和传播动力学特性是影响数据污染扩散的重 
要因素，该类经典模型认为 P2P 网络自身是个全连接拓扑 
图，忽略了拓扑特性对污染扩散的 影响; 另一方面， P2P 网络 
的动态性使其在网络传播动力特性方面与 Internet 有很大的 
区别，经典模型在这一方面的描述能力受到较大的限制。此 
外，经典模型不能反映 P2P 网络客户端节点共享行为异构的 
特性，降低了经典模型描述的准确性。 

对该经典模型进一步拓展，以描述 P2P 网络中毒害攻击 
的传播过程，其中一个典型的毒害攻击扩散离散模型表示如 
下： 


• 2 • 



设共享目标文件的大小为 /-„ ，被 P 2 P 网络系统分割为 
ot 个 pieces ( 典型地， ms/h/256) ; 

设 A 为共享文件在网络中被下载的概率， 即: 文件在 P 2 P 
网络中的流行程度；彳为节点共享文件一段时间后节点下线 
或停止共享服务的 概率； 

令 D „, D , ，…， Df , 分别表示节点已经成功下载了第 i 个 
piece, 特别地 ,D 。 表示节点完成下载的初始化，开始进人正式 
下载状态，表示节点已经成功下载完所有 m 个分片，完 
成了文件下载过程； 

令 S 和/ 分别表示节点处于共享状态(提供下载服务)和 
空闲状态(不共享下载的分片或者离开 P 2 P 网络）； 

为简化模型，假设节点下载完全部分片后才以概率 
" 进人共享状态。节点状态的迁移模型如图2所示。 



图 2 毒害攻击下节点的状态迁移模型 


当节点下载完毕一个分片后，客户端使用带宽优先和轮 
叫算法选择节点下载新的分片，设: P 2 P 网络中节点的平均上 
传带宽和下载带宽分别为 r „ ，则节点获取下一分片的概率 

可以表示为: 〆 ， ) = } °时刻，各状态节 

点数量变化可以用如下离散微分方程组 表示： 

=A(f) I(t) 

學穿 =" ⑴ (D,-, (J)-D,(i» V l<i<7n-l 

( 2 ) 

式中，网络中的总节点数 N = J+ g A + s 不变，并且 JV= r 
(0)+S(0),D,(0) = 0,i=0,l,-,m-l o 

目前，该模型还没有考虑 P 2 P 网络中节点的动态特性， 
也没有考虑节点下载完成一个分片后立即共享的情况，在进 
一步的建模研究中，将在此模型基础上进行细化，融人 P 2 P 
网络的结构特征，形成 P 2 P 网络毒害攻击的离散 模型。 

3.2 基于状态迁移的模型 

第二类状态模型建模针对 P 2 P 网络应用中节点的行为 
迁移特性，研究污染版本和毒害攻击的扩散过程。 Kumar 等 
人建立了对等网络中数据污染扩散的流模型 （ Fluid Model - 
ing )， 分析了流模型下客户端行为（包括主动放弃下载、黑名 
单过滤等)对 P 2 P 网络中数据污染扩散的影响。结果 显示： 
目前单纯的黑名单、信誉系统等策略不能有效抑制污染的扩 
散。 Kumar 的流模型为 P 2 P 网络数据污染扩散建模提供了 
基本的理论思路。模型考虑了“自由下载 （free loading )” 和 
“用户中途放弃”等两种用户行为对污染信息扩散的影响，此 
夕卜，还分析了“非线性版本偏好” ( non-linear bias toward popu ¬ 
lar versions )、 黑名单等防治策略对数据污染扩散的影响。该 
模型描述 如下： 

设 x ( t ) ，: y ( i ) 分别表示时刻 i 网络中原版文件 (good cop - 
y ) 和“盗版”文件 （polluted copy ) 的总数，它们均为连续时间 


函数，则此时用户选择下载“盗版”文件的概率/ > U ): = 
其中 N 是攻击者最初注人网络的盗版文件 

数量。 

原版文件在网络中的数量 x “) 变化有两种 可能： （1) 没 
有该共享文件的用户选择下载了原版 文件; （2) 下载了“盗版” 
文件的用户重新选择下载了原版 文件。 因此， xU ) 的流方程 
可以表 示为： 

x(i) = [M—x(i) 1 — pit')') + y(^t) 1~ p(,t)) 

(3) 

类似地，“盗版”文件在网络中的数量 〆 0 变化有两种可 
能:（1)没有该共享文件的用户选择下载了盗版文件; （2) 下载 
了“盗版”文件的用户重新选择下载了原版文件。因此 
的流方程可以表 示为： 

y{t) = [_M—x{t)—y{t)^\fip{t)—yit)fi{'\. — pit)) (4) 
式中， iW 为网络中最初没有该共享文件副本的节点总数，户为 
节点校对文件是否原版的时间指数分布参数。 

通过式 (3) 和式(4)，可以得到工(£)和 〆 £)的 解为： 


xit)— -- 

1+c 2 M(^-^)m+n 

y{t) =M—ci e~ ut — 

式中 ， Cl = M ~ x (0)—3；(0), 

x(0) ^ N+x(0) + y(0 ) \~mTn 

C2_ M-x(0)V M+N ) 。 

图 3 描述了流模型中文件版本的状态迁移过程。 



(5) 


( 6 ) 


图 3 污染攻击下的状态迁移模型 


该模型是 P 2 P 网络中文件污染扩散的最基本形态，通过 
对模型参数的调节和加人 BT 网络的动态特征、网络结构特 
征，可以进一步研究污染文件对 BT 网络的影响，发现网络中 
的脆弱组件。 


4数据污染治理技术 


研究 P 2 P 网络数据污染测量技术和模型化方法的最终 
目的是寻求 P 2 P 网络环境下高效的数据污染治理技术。数 
据污染的治理包含两个层次， SP : 抑制污染信息扩散和清除污 
染信息。目前，还未见清除 P 2 P 网络环境下污染信息的系统 
方法，在数据污染抑制方面，采用的方法主要包括信任机制、 
数字签名技术和信息冗余等。 

Kevin 等人采用投票策略的信任机制防御 P 2 P 网络 
中虚假信息等污染的扩散; Crisdano 等人提出了一个高 
效的分布式信任系统 -Scrubber, 用以抵御 P 2 P 网络中基于信 
息诱骗和身份修改的污染 攻击。 Pabricio 等人 n8] 研究了用户 
激励机制和用户行为对治理 P 2 P 网络数据污染的影响，其 
中，用户行为包括： （ a ) 用户主动清除行为； （ b) Hash 伪造行 
为 Kc ) 下载源数量限制行为等。模拟分折显示 ：针对 不同的 
数据污染，需要采取对应的客户端激励机制才能减缓污染信 
息的扩散。 Lou 等人 M 提出了可靠索引交换协议 （Reliable 



Index Exchange Protocol ， RIEP ) ，用以防止 P 2 P 文件共享应 
用中数据污染等造成的 DDoS 攻击，分析了 RIEP 的有效性 
和实现时的局限性。文献 [19] 提出将磁盘阵列中的 RAID 技 
术应用到 P2P 文件共享系统中，以降低数据污染对 P2P 网络 
系统的危害。在国内，对等网络的数据污染和治理方面的研 
究还处于初始阶段，理论和经验数据等方面的研究和分析还 
不深人。中科大的韦冬等人 [2 ° ] ，利用向量空间相似度赋予投 
票权重，使用 horting 图方法解决数据稀疏性问题，采用自适 
应的信誉阈值判断文件可信性。 

目前， P2P 网络中数据污染的治理还处于理论模型研究 
起步阶段，上述策略和方法还不能有效解决具有高度动态、自 
组织、大规模等特征的 P2P 网络中的数据污染问题。 

5 难点问题和研究思路 

P 2 P 网络数据污染研究目前面临的主要困难来自于3个 
方面: 首先是 P2P 网络结构和行为复杂的 特性； 其次是数据 
污染自身的复 杂性; 最后是缺乏系统研究的方法论。 

P 2 P 网络结构和行为复杂的特性带来的问题主要集中在 
数据污染测量方面，具体表 现在: P2P 网络拓扑的动态变化影 
响测量的准 确性; 其庞大的规模影响了数据污染测量数据的 
完 整性; 节点异构和用户行为不确定增加了数据污染测量的 
技术难度。因此，客观地说，目前的测量技术无法获得完整、 
准确的 P2P 网络数据污染数据,现有的 P2P 网络数据污染模 
型都存在一定的局限性。由此引发的问题包括 : P 2 P 网络中 
污染信息扩散与网络自身特点之间的内在联系是什么？回答 
这个问题不仅需要结合 P2P 网络流量、拓扑、可用性等多层 
次的测量分析，还需要引人用户行为特征、 Internet 网络行为 
特征以及信息内容特征等多方面因素。 Christin 等人根据 
查询返回数量、查询响应时间、内容稳定性、内容重复度、下载 
完成时间等量化指标对 Gnutella , eDonkey , Overnet , Fast - 
Track 这 4 个主流 P 2 P 网络的内容特征进行了测量，分析了 
各种污染策略对 P2P 网络内容可用性的影响。 Shi 等人 [14] 通 
过分析 P2P 网络结构层次特征，结合数据污染策略的特点， 
面向节点行为进行建模分析，建立了 P 2 P 网络污染统一模 
型，进而分析了不同数据污染策略对 P2P 网络性能的影响。 
本文认为，结合上述特征，进一步研究 P2P 网络中数据污染 
扩散背后的驱动机制，从复杂网络系统的 HOT(Highly Opti ¬ 
mized Tolerance ) 理论中寻求答案,是未来 P 2 P 网络数据污染 
模型化研究的一个重要方向。 

就数据污染自身来说，信息的多样性使得智能识别污染 
非常 困难; 庞大的信息内容和信息的变化增加了污染信息识 
别的效率和准确性；而互联网络相关的版权、隐私保护等法 
律、社会因素，影响了数据污染治理的部署和实施。在污染信 
息智能识别技术方面，研究者提出了比较法、特征提取、节点 
消息校验等识别算法，但是它们在效率和准确性上都还不能 
满足 P2P 网络大规模和动态性的需求。研究在 P2P 网络环 
境下识别污染信息、判定信息内容的可信性是亟待解决的公 
开问题 之一。 

随着研究的不断深人，特别是对 P2P 网络自身特征的深 
人认识，人们发现 P2P 网络属于具有“新陈代谢”功能的自组 
织复杂系统，它与 Internet 网络、万维网、细胞网络、社会关系 
网、科学文献引用网络等具有相同的内在特征——自相似特 
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性，同时认识到对 P 2 P 网络特性、网络中信息内容特性以及 
数据污染的特性等方面缺乏了解不只是一个计算机科学问 
题，而是源于缺少一个对复杂网络系统进行特征化分析的科 
学框架。因此，建立 P 2 P 网络特征模型、研究 P 2 P 网络中污 
染信息特征模型要依赖科学界在上述邻域的共同努力，对 
P 2 P 网络模型、数据污染模型的研究也会促进这一科学框架 
的形成。 

综上所述， P 2 P 网络数据污染的研究路线主要包括以下 
3个方面: （1) 通过分析 P 2 P 应用系统的网络结构、内容分布、 
以及用户行为等特征，建立新的 P 2 P 网络数据污染测量技 
术，提高测量数据的完整性、准确性以及污染信息的识别效 
率，以求从新数据中发现数据污染新特征； （2) 将数据挖掘、复 
杂网络以及图论结合起来，研究 P 2 P 网络数据污染/毒害攻 
击模型、数据污染扩散模型，建立系统的 P 2 P 网络数据污染 
特征分析方法；（3)借鉴复杂网络的研究成果，利用信任模型、 
密码学等方法，研究 P 2 P 网络环境下数据污染的抑制技术， 
建立多层次的 P 2 P 网络数据污染评价方法和指标体系。 
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4.9 电力市场动荡性研究问题 

电力市场是电力企业的重要输出源，它通过市场化运作 
给电力企业带来竞争压力。 

2008年， Sahraei-Ardakani 等 [9] 采用 IWO 算法求解了电 
力市场动荡性问题，通过大量计算表明 IWO 算法能够在具有 
纳什均衡点的问题中求得纳什均衡解。 

5 1 WO 算法的可扩展性探讨 

由于 IWO 算法是一种数值优化算法，适合求解具有连续 
变量的函数优化问题。如果仅限于此的话， IWO 算法的应用 
和推广将变得异常困难。如何扩展 IWO 算法，使其能够求解 
混合整数规划问题和带有二进制变量的函数优化问题，是非 
常值得考虑的重要方面。从算法的执行过程来看，其他部分 
都是框架性的，只有空间分布环节需要具体区分。对于编码 
中带有二进制字符串或二进制矩阵形式的问题，可以将<^,和 
分别对应于允许进行变异操作的变量的个数，也就是说 
让算法的执行过程从多点变异方式转换到单点变异方式。对 
于整数规划问题，可以仍然按照处理实数变量的方式执行算 
法，只是在产生新的变量值时采用向上或向下取整的方式进 
行。通过这些改进方式,学者们可以将 IWO 算法用于更多研 
究领域的问题求解过 程中。 当然，更多的算法扩展方式还有 
待于学者们去探索和应用。 

结束语 本文对野草算法的研究及进展进行了较全面的 
论述。在短短的几年内， IWO 算法引起了国际学术界的广泛 
关注,成为国际优化计算领域的研究热点之一，也逐渐成为解 
决实际工程优化问题的热门工具。 

IWO 算法虽然已对多种优化问题取得了很好的求解效 
果，并在诸多应用研究领域取得了长足的发展，但远未达到成 
熟的阶段，还有很多问题值得深人地分析与探讨。比如，算法 
是否存在统一的参数？如果不存在，如何针对不同问题合理 
设置参数组合？ 

与其他优化算法一样，关于 IWO 算法的理论研究尚显不 
足。理论研究工作者可以考虑算法收敛性、收敛速度、鲁棒性 
等方面的数学证明以及算法执行过程改进等方面。总体看 
来， IWO 算法扩展了智能优化算法的领域，提供了求解优化 
问题的新思路，具有巨大的科研价值和应用潜力。 
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Twitter 中近似重复消息的判定方法研冗 
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摘 要： 微博客是 Web2.0 出现以来的一个新生概念。著名的 Twittei •系统是微博客中具有代表性的一个，其全球 
用户已经超过 1.6 亿，在世界范围内具有重要影 响力： 目前知名政治家社会名流和大企业几乎都是 Twittei •的用 
户。 Twittci ■系统中的消息小于 140 个字符，而且语法不规范 = 同时，由于 Twitter 允许用户以多种格式自由转发 
消息，系统中存在大量内容重复或近似重复的消息。重复消息的存在加重了系统存储的负扭，对用户阅读通解以 
及分析消息的内容也造成了不利影响。该文分析了 Twitter 系统中转发消息的语法特点，并利用这些语法特点提 
取规則，把转发的消息变成普通消息。该文还提出统计字符种类和最短编辑距离两神字符串距离计算的方法以判 
定 Twitter 中近似重复的消息。该文还分析了 TwitUi ■消息发送的方式以及不同登录方式的消息特征.实验结果 
表明，两种方法具有扩展性强、实现简单、效率高等优点，能够有效地检測 Twitter 上的信息重复现象。 
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Detecting Near Duplicate Messages in Twitter 
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Abstract: Micro blog is a very new concept of web 2.0. The most important micro blog system in use is Twitter , with 
mo re than 160 million users all over the world. For now ， Twitter is one of the most iiiflueutial voices of the globe ， 
its users including celebrities , well-known politicians and first-order con^pallies. The length of the messages in Twit¬ 
ter is short , and the contents of the messages are very likely to be informal in syntax or grammar. Moreover , Twit¬ 
ter does not strictly define the syntax of retweet , which causes the existence of a great number of near duplicate mes* 
sages. These near duplicate messages can be a waste of storage resources , and cau greatly reduce the user experience 
of Twitter. Li this paper , the syntax of retweet messages is analyzed, and a method is presented to remove the 
retweet symbols of messages using the analyzed results. In addition，two text distance calculating methods character 
statistics and shortest editing distance are proposed to cluster the Twitter messages into groins of near chq)licate 
messages. Wc also analyze the log-in method and characteiisties of twitter s messages. Through a scries of experi¬ 
ments ,wc prove that our methods are efficient , extensible and easy to i 叫 lenient ， and can be used to discover and 
filter the near duplicate messages in micro blogs. 
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1 概述 

随着 Web 2.0 的出现以及迅猛发展，社交类网 
站的概念渐渐深入人心，隨之而产生了“微博客 
( Microblog ) ”的概念。微博客是一种非正式的迷你 
型博客，是最近新兴起的 Web 2.0 的一个表现形式， 
是一种可以即时发布消息的系统。微博客的最大的 
特点是消息的集成化和 API 的开放化。用户可以 
通过移动设备、 IM 软件 （ Gtalk 、 MSN 、 QQ、Skype 
等）和外部 API 接口等途径发布消息。例如，自 
2006年以来利用无线通信技术， Twitter 用户无需 
输入手机号码，就可以通过客户端在微博客上发布 
信息。微博客的另一个特点是其消息相对比较短 
小，每次最多能够发送140个字符的短文本，因此一 
般发布的消息只能是只言片语。 

Twitter [1】 是国外的一个社交网站，也是微博客 
中比较有代表性的实例之一。目前， Twittei •的使 
用非常火爆，用户数量高居国内外各种微博客系统 
之首。根据2010年末 Twitter 官方博客上的杈威 
资料，当前 Twitter 用户已超过1 . 6亿，且仍然以每 
天30万新用户的数量 增长； 同时， Twitter 服务器的 
月访问请求超过190亿次 m 。 

在 Twitter 中，用户之间可能建立的好友关系 
称为“追随关系”，即一个用户可以根据兴趣选择自 
己愿意关注的人而“追随 ”他； 当然，同时他自己也可 
能被其他一些用户追随。用户可以随时以消息形式 
发送一些内容，就像发送手机短信一样，所以类似 
Twitter 这样的微博服务又被称为互联网上的短信 
平台。一个用户发出的信息对他的所有“追随者 
( Follower ) ”都是公开的。因此，如果一个用户写了 
一条消息（称为 Tweet ) ，他的所有追随者都可以看 
到，并且他们可以回复这个人的消息，而被回复的人 
同样可以看到别人回复他的消息。于是，用户之间 
可能针对一个话题展开激烈的讨论，正如我们日常 
生活的对话一样，消息会越积累越多。一个用户在 
Twitter 中所写的消息，系统会自动地让他的追随 
者知道，这属于一 种“推 送”的方式。另外，作为一个 
Twitter 用户，他一般会经常关注自己所追随的人， 
回复他们所发的消息。因此 Twitter 为用户之间信 
息交流提供了一个基础的平台。 

Twitter 中除了好友关系和消息回复关系以 
外，还有消息的转发关系。也就是说，同一个内容的 
消息，可以在好友之间进行转发 （ Retweet ) 。正是 


通过这种方便且简单的转发方式， Twitter 可以令 
一条消息在数分钟内在数百万用户间大范围传播。 

然而，在对 Twitter 的调研过程中我们发现，用 
户在发送消息的时候，往往会完全复制别人的消息， 
或者经过少量的修改后（添加、修改、刪除部分字 
符），作为自己的消息而再次发送出去。于是在 
Twitter 中往往存在大量内容相同或者相似的消 
息，本文中称其为近似重复信息 （Near Duplicate 
Message ). 在单纯考虑消息种类的时候，经过转发 
的和少量修改的消息会有很大的重复，而内容重复 
的消息往往是没有意义的。例如， Twitter 的用户 
往往会发现，因为存在大量的重复消息，自己阅读到 
的消息数量很多，但真正得到的信息量却很有限。 
比如自2010年5月份以来， Twitter 中关于“世博会 
(World Expo ) ”的消息相对较多，而真正原创的消 
息数量却有限，大部分都是用户之间来回转发的消 
息。大量重复消息的存在对用户的影响往往是灾难 
性的： 它们白白浪费了用户的时间和精力，降低了 
用户的使用热情。去掉这种大量重复的消息，不但 
可以減轻系统存储的负担，而且可以提高用户阅读、 
理解和分析消息内容的效率，从而提高用户的使用 
热情。因此，提出一种微博客系统上近似重复信息 
的高效判定方法是十分重要而有意义的。 

本文分析了 Twitter 系统中消息转发现象 。从 
大量存在的转发消息中提取出一些固定的程式化的 
词法结构特征，并据此归纳出一定规则。然后，按照 
这些规則预处理 Twitter 中的消息，得到和系统无 
关的“原始消息”文本（真正被转发的消息内容）。在 
此基础上，提出针对 Twittei •消息 的字符串近似匹 
配算法，以计算两条消息的距离，从而决定它们是否 
近似重复. 

接下来的章节安排 如下： 本文第2节介绍消息 
去重的相关工作和基本方法；第3节阐述 Twitter 
上消息去重的特殊性以及本文所采用的方法；第4 
节给出实验 结果； 第5节展望并讨论 Twitter 上重 
复消息的判定方法发展的可能 方向； 第6节是结论。 

2基本概念和相关工作 

消息的本质就是字符串。因此最简单直接的消 
息重复判定规则是对两条消息进行全文匹配，即如 
果两条消息完全相同，则认为是重 复的。 这种方法 
的特点是实现简单，只需要对字符串 排序； 但是其缺 
点也相当明 显的： 两条消息内容绝对相同，对文本 
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要求太敏感、鲁棒性差。因为完全相同的两条消息 
在 Twitter 系统中几乎是不存在的。一般地， Twit ¬ 
ter 用户总 会在原始消息上添加、刪除、修改部分内 
容，这种简单的方法并不能鉴别出这样的重复消息。 
所以本文更关心近似重复消息，而不仅仅是完全重 
复消息。 

判定近似重复消息的一般方法是对每个消息进 
行压缩，压箱的信息称为指纹 （ Fingerprint ) ，然后利 
用指纹比较消息是否相同。指纹方法是一种普遍的 
方法，它的本质是利用哈希 （ Hash ) 进行文本压缩， 
判断重复性。文献 t 3] 对网络文档（网页）进行查重。 
作者采取了多指纹的方法，即每个文档有若干个指 
纹，如果两个文档相同的指纹数达到一个预先给定 
的阈值，则认为它们是相同的。如果允许误判，还有 
经典的 Blooiirfilter [4] 方法可以用来进行查重，但它 
不仅限于消息查重领域。 

文献 [5] 中提出的 Simhash 给出了在规模上百 
万的网页中查找重复消息的一个有效方法。 Sim ¬ 
hash 是一种文档指纹算法，它有如下性质：两个近 
似文档的指纹（两个整数）只差几个数据位 （ bit ) [6] 。 
这样，相当于把文档映射为整数，文档的相似度对应 
为整数的接近。这种方法对哈希函数的选择要求比 
较高》 

另外一种消息去重的直接想法是在消息中提取 
关鍵词，如果关鍵词的集合基本相同则认为它们重 
复。更为深入的方法是提取出文档的摘要，根据语 
义的信息判断文档的相似度。这种方法在消息聚类 
领域使用得比较 广泛。 但是，它的缺点是涉及到的 
技术比较复杂，例如，自然语言理解、关鍵词提取肩 
要抽取等等，因此实现难度大、复杂度比较高，效率 
也相对较低。而且这种方法比较适合分析较长的文 
本，例如普通的文章，因为它们往往具有比较完备的 
结构、语法和语义信息。但是， Twitter 中的消息都 
是140个字符以内的短文本，文本内容和语法结构 
通常并不很规范，甚至还可能包括众多用户自定义 
的符号和标记，因此很难提取适当的关鍵词，抽取摘 
要就更加困难。因此， Twitter 中的近似重复消息 
判定也不能采取这种方法。 

3 Twitter 上近似重复消息的判定方法 

3. 1 Twitter 中转发消息的特点 

登录 Twitter ,用户会发现，有很多消息是非常 


相似的。这些消息通常可以看作同一内容在好友之 
间的转发。系统本身在用户转发消息时会给消息加 
上一些特殊的字符（如 @、 RT 等），另外，用户回复 
某条消息时，系统同样会加上固定模式的字符，这些 
都对转发消息的识别提供了便利条件，为順利找到 
“原创消息”提供了帮助。但对于“原创消息 Mwit - 
ter 系统并不会在消息中加入特殊字符，因此，必须 
利用字符串本身的特性进行近似重复消息的判定。 

Twitter 对于用户消息的转发，在消息的语法 
结构本身并没有十分明确和严格的定义。但是，根 
据文献 [ 7 ]，以及对实际采集到的消息的观察，我们 
发现， Twitter 系统中转发的消息通常包含如表1中 
所述特征（一般”符号的后面是用户名）。 

表1 Twitto •转发消息的特征 


转发消息特征 

举 例 

RT: @ 

RT: @A 

retweeting @ 

rctwccting @A 

rctwcct @ 

rctwcct @A 

(via @ 

(via @A) 

RT(\ia 

RT(via @A) hello 

thx @ 

hello thx @A 

r @ 

r @A hello 


这些转发消息特征的位置以及具体样式并不是 
一成不变的《例如，假设用户名为 A 的用户发了一 
条消息，内容为 hello , 而用户名为 B 的用户转发了 
A 的消息，按照上迷的符号说明，转发的消息可能 
具有如下格式： 

B : RT : @A hello 
B : retweeting @A : hello 
B : retweet @A : hello 
B : hello (via @ A ) 

B : RT (via @ A ) : hello 
B : hello thx @A 
B : r @A : hello 

事实上 ， Twitter 系统本身并不强制约定用户 
转发消息的格式，以上格式只是比较常见的。实际 
的情况千变万化。例如，转发消息可能在“ @用户 
名”后面缺少冒号，消息中可能有大量空白字符，此 
外，有些用户在转发消息时，甚至会修改消息的内 
容。这些都给对消息的预处理帝来了困难。 
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3.2 TwittM •中消息预处理 

对于一个转发消息，我们考虑的对象是被转发 
的“原始消息”，所以按照 3. 1节所述规则，需要对消 
息进行一些预处理，把消息中的转发特征字符串过 
滤掉。 

算法的描述 如下： 根据规則，查找@符号的位 
置，然后提取前后若干个位置的字符，如果可以匹配 
3. 1节中的特征，则删除这些内容 。如果 有多个@ 
符号，要依次分别处理。但是我们要处理的不仅仅 
是转发关系，有些消息中包含单独的一个@符号后 
跟用户名，它并不是转发消息，而是代表针对这个用 
户发的消息，单独考虑消息内容的时候，这些字符也 
应删除掉。另外，有的消息中会出现“ # ”符号，该丼 
号后面紧接的是消息的关鍵詞（或称为话题），我们 
认为保留这些内容对消息去重没有影响。总之，经 
过基于规则的字符串匹配算法，把消息处理成最普 
通的字符串，这些字符串包含着消息的原始内容。 

算法 流程： 

步骤1查找第一个没探測到的@符号，如果没有则结 

束，否則转步骤2。 

步骤2模糊匹配上述的规則，看看@符号前后的部分 

是否能和规 则匹配 ，这里的匹配允许单词与符号之间 

出现任意多空白，冒号可有可无 • 若能匹配规則，转步 

骤3，否則转步骤1 

步骤3 刪除掉匹配规则的部分，消息内容缩短。转步 

骤1。 

这样，我们就获得了 “原始消息”。接下来，可以 
采取一些字符串处理中的经典算法，比较两条消息 
的相似度。 

3.3 TwittM •中消息距离的计算 

在预处理之后，我们获得的是字符串，计算字符 
串之间距离，可以用任意经典的方法。本文使用统 
计字符神类和最短编辑距离两种方法。 

3.3.1 统计字符种类 

一神常用的给字符串做指纹的方法是统计字符 
串中每个字符的神类。假设消息的编码方式是 
Unicode 。每个消息的字符对应的是一个 16 bit 的 
二进制数。由于一般的文本编辑器最小的编辑单位 
是4个 bit 。我们把一个 16 bit 的数拆成4组，每组 
4个 bit ， 则每个组有2 4 =16种；如果再考虑组别的 
话，每4个 bit 的可能性有16 M = 64 种情况。这样 


我们可以统计每条消息中这 64 种情况的出现次数， 
为每个消息做一个指纹。即使消息不是 Unicode 编 
码，我们也可以强行的把消息按 Unicode 理解，这相 
当于每 64 位分为一组。于是，我们可以把所有的消 
息都按照这种方法解析。 

这样对于一个消息 M , 可以得到向量 V=(Vi, 
Vi ”764), 其中 F.fl <1 <64) 代表这条消息的二进 
制表示中第 Z 种情况出现的次数。于是，两个消息 
的相似度，可以完全转化为两个向量之间的相似度。 
而向量的相似度通常可以用曼哈顿距离或者余弦距 
离来计算. 

事实上，这种表示方法压缩了字符串，用每个字 
符出现的次数代替了字符串本身，损失了字符出现 
的位置信息。因此，对于同一个消息，如果只调换了 
字符顺序的话，通过这种方式计算出的消息指纹不 
变。但实际情况中，这种情况往往出现较少。（一个 
极端的例子是“喜欢”和“欢喜” 》) 

3.3.2 最短编辑距离 

最短编辑距离是一个经典的概念。对一个字符 
串进行添加一个字符、删除一个字符或修改一个字 
符定义为进行一次操作。两个字符串的最短编辑距 
离是指把一个字符串变为另外一个字符串需要的最 
少操作次数。 

求解最小编辑距离是一个可以用动态规划方法 
解决的经典问题。如果两条消息字符串长度分别为 
lem, lem, 則计算它们的最短编辑距离的算法复杂 
度是 Of / e«i Xlem ) = 通常，这样的算法时间复杂度 
在长文本中是很馒的。但是，针对 Twitter 系统中 
消息的长度都小于 140 个字符这一特性，我们可以 
使用它来计算消息的 距离。 

最短编辑距离对字符串的字符顺序比较敏感。 
因此如果调换了消息中的字符顺序，它们的最短编 
辑距离差异会比较大。 

3.4 Twitter 中去除重复消息的方法 

由于上节中提到的两种距离计算方法各有利 
弊，本文采用两种方法叠加来计算消息的距离 。假 
设两个消息字符串之间的曼哈顿距离和最小编辑距 
离分别为 ch 和出。 则定义两个消息的距离为5 = 

必。如果两条消息的距离小于一定的阈值（例 
如阈值选择 5) ，则认为消息是近似相同的。 
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图1消息长度分布图 
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4.4 消息去重星示 

我们选取了与“世博”相关的消息一共27 599 
条。找到了一些重复的消息，图4和图5是我们的 
算法找到的一些近似重复的消息。从图4可以看 
出，由于用户的转发行为，造成了重复的消息。图5 
則显示了系统中非用户转发行为产生的另外一类重 
复消息。明显地，这是一个稍微有一些字符不同的 
广告。 
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图 2 预处理前的部分消息 
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4 Twitter 消息采集与去重实验 

4.1 数据采集 

我们通过约20个 Twip API 代理，采集了 
Twitter 系统中的将近70 000个用户的约854 629 
条消息。数据采集的方式是通过浏览 Twitter 得到 
一些用户的用户名，利用系统本身提供的 API 对这 
些用户、用户的好友、以及好友的好友的消息进行周 
期性采集。采集时间为2010年4月16日至6月12 
日。由于上海世界博览会恰好在此期间开幕，我们 
重点采集了 Twitter 上与世博会相关的消息，采集 
时使用的关鍵词包括“世博 "、“ expo shanghai ” 等。 

4.2 消息长度分布 

在预处理消息之前，得到的消息字符串长度分 
布如图1 所示。 

4.5p— 

4.0 I 


可见，由 Twitter 本身的特征决定了所有的消 
息都比较短。在120个字符以上的消息数量最多 . 
消息的平均长度只有 66. 3。对如此短的消息计算 
最短编辑距离的时间复杂度是可以接受的。 

4.3 預处理后的结果 

按照 3.4 节中介绍的方法，对所有消息都进行 
了预处理。重点看了含有特殊字符（@11等）的消 
息，如图2和图3所示。 

由图2、图3可见，消息1是对 bestguy 说的话， 
因此需要去掉头部的部分 内容； 而消息2中的 
“retweet ”一词是消息本身的文本的内容，所以应该 
保留，不能 删掉； 消息3结尾的 “ via ” 符合预先给出 
的模式，需要删掉。消息4是既有 “ RT @ ”又有 “thx 
@”的情况，同时与两个模式匹配，所以都需要 去掉； 
消息5是 “ RT ” 在尾部，而且有两个“ @”符号，需要 
同时处理，另外，消息头部的 “thx ”属于消息本身的 
文本内容，不应该删掉；消息6是头部不止有一个 
“ RT @ ”的情况。可见，我们设计的基于模式规则的 
消息预处理算法可以正确处理 Twitter 消息。 



图3 预处理后的消息 
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接着我们对这些消息按照前述规则进行处理， 

去掉不必要的字符，得到“原始”的消息字符。图8 
1600 


4.6 预处理和去重对消息长度分布的影响 

在对消息预处理前消息长度的分布如图7所 
示。“世博”相关消息和全部消息有的分布是一致 
的。图7和图1有着相似的统计特征，仍然是长消 
息数比较多，而消息的平均长度比较短。 



10 ° 10 1 10 2 10 3 
消息出现的次数 


实验表明，对隨机抽取的1 000条相关的消息 
进行去重后，剩余894条，重复消息的比例高达 
10.6%。抽取比较大规模的“世博”相关的部分 
27 559条相关的消息进行去重后，剩余16 778条，近 
似重复消息达到10 781条，占总数的 39. 1 %。对我 
们采集到的全部“世博”相关消息41 722条执行去 
重操作，去重后剩余26 427条，重复率占 41. 2%。 
可见对消息去重将能够节约很大存储 空间。 

4.5 消息的重复程度 

我们对于“世博”相关的41 722条 消息。 去重 
后 ，一 共剩余26427 条。 这些条消息平均每条出现 
1.6 次《图6统计了这些消息重复数的分布。从图 
中我们可以看到，有21 084条消息只出现了 一次， 
占到去重后消息数量的 79. 8%,而重复数超过10 
次以上的转发消息只占全部去重后消息的2%。这 
说明重复或近似重复消息的分布是不均匀的。造成 
这一现象的原因一方面 在于： 对于内容好、质量高 
的消息， Twitter 用户拥有较高的转发热情；另一方 
面，由于 Twitter 第三方应用倾向于不遵守 Twitter 
官方的转发协议，导致大量无法被官方数据服务器 
认定为转发消息、但实际是转发消息的情况出现。 
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图 5 近似重复的消息 -2 
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图 6 近似重复消息出现次数累积 CDF 图 


图8消息长度一硝息数分布图（预处理后) 
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图10消息数 一用户 数分布 

在所有41 722条消息中，用户登录 Twitter 的 
方式共有49种。这其中包括 Web 登录 、 API 登录 
以及其他各种不同的客户端等，如表2、3所示 。我 
们可以将用户访问 Twitter 的方式分为 Web 方式 
和 API 方式两大类， 其中： Web 方式指通过浏览器 
访问 Twitter 官方网站，通过官方页面使用 Twitter 
功能； 其他方式指通过官方提供的 API 接口，或通 
过其他第三方客户端派务器等间接使用官方 API 
接口的方法。经统计我们发现，约1/ 3的消息来自 
于用户直接访问 Twitter 官方网页，另2/ 3的消息 
来自于第三方。 


表2 用户登录方式统计 


访问方式 

消息数 

平均消息长度 

比例 

Web 

13 706 

80.6 

32.85 % 

API 

4 913 

83.9 

11. 78% 

其他客户端 

23 103 

81.8 

55.37% 

表 3 用户登录方式统计（消息重复次数不少于 4) 

访问方式 

消息数 

平均消息长度 

比例 

Web 

5 119 

91.9 

39.43 % 

API 

1 879 

95.4 

14.47% 

其他客户端 

5 983 

91.5 

46.10% 

重复次数不少于4次的消息中，3大类访问方 
式分别占总数的 39. 43 %, 14. 47 46. 10 %，这与 

不考虑消息重复时访问方式的比例基本一致。而较 
明显的不同点在于，重复4次以上的消息的长度要 


大约10个字，这说明长消息更倾向于被复制和转 
发》所以消息的处理和去重操作对減少数据存储设 


0 20 40 60 80 100 120 140 

消息长度 

图9消息长度分布图（去 重后） 

4.7 发送消息的用户行为分析 

在对消息进行去重前，与关鍵词 “ 世博”相关的 
全部41 722条消息中，而它们只涉及到10 614个不 
同的用户，平均每个用户发送的消息数为 3. 9条。 
用户发送消息数量的分布如图10所示，可见大部分 
用户发送的消息并不多。有4 358的用户只发了一 


类似于把图7向左平移的结果，因为预处理后，消息 
长度确实会变短。在其中有三个情况值得关注： 

1) 图8较图7陡峭，这说明不遵从官方转发方 
法的消息，其转发格式自由度很大，这印证了表1中 
对消息转发多样性的观察结论； 

2) 图7中消息长度在130〜140字的消息集合 
在消息去重后操作后，在图8中形态变化不大，只是 
消息总数略有下降，这说明130字以上的长消息较 
少 存在多次嵌套转发的 情况； 

3) 有相当一部分用户是属于“空消息”转发的 
情况，也就是该用户发送的消息的全部内容几乎全 
满足前述的预处理匹配规則，这样在预处理后，其发 
送的真正有价值的消息长度为0。 

图9为对消息预处理 JL 合并重复消息后，消息 
长度与数目的分布关系。预处理和去重后剩余 
26 427条消息。具体地，对于近似相同的消息，我们 
取其平均长度作为消息的长度。这样经过去重后， 
消息的平均长度为 105. 2,仍然是120个字符以上 
的消息数量最多。这说明120个字符以上是同一话 
題中消息的普遍长度. Twitter 对于消息长度的限 
制，使得除部分“懒用户”（他们发送的消息普遍较 
短）以外， Twitter 用户希望在一条消息中表达尽可 
能多的内容，这是消息即使去重后仍然在120个字 
符以后出现聚集的重要原因 之一。 

1400 




o 3 o 


yi ( /I 

o o o o o o 

2 0 8 6 4 2 





1 期 


曹 鹏等： Twitter 中近似重复消息的判定方法研究 


27 


备负担上效果比想象中更明显一些，这有助于提高 
系统的效率，更便于分析用户的行为特征。 

5 更多应用 

基于“发消息相似的用户往往具有相似的爱好 
和兴趣”这样的信念，我们可以利用这个假设检查用 
户之间在 Twitter 中言论的聚集性。事实上，在社 
会网络普遍地存在社区结构已经成为公认的事实。 
当然，在重点考察用户言论作的时候，如果通过 
Twitter 中消息的相似性作为“虚拟连边”，而代替 
用户之间的好友和追随实际关系 （Follower , 
Friend ) ，显然，这样建立的网络是和我们直观想象 
上建立的社交网络所不同的，如果把消息的相似度 
作为边的强度的体现（也就是通常所谓的杈值），这 
样建立的网络是有杈的。另外，把 Twitter 系统用 
户之间消息的转发和回复关系作为用户的连边，这 
样建立的网络又是有向的，对这样建立的网络进行 
分析，可能得到言论、兴趣和爱好更为相近的用户。 

另外，通过对用户转发消息长度真正长度的分 
析，可以发现所谓发送“垃圾”的用户。 

而通过用户访问 Twitter 方式的分析，可以了 
解各种客户端的特性，帮助我们有针对性地更好地 
分析和处理 Twitter 中的消息。 

6 结论 

本文提出了 一套针对 Twitter 的近似重复消息 
判定方法。由于 Twitter 消息的特殊性，分析其中 
短小的、结构随意的消息时并不适合采取通用的自 
然语言处理方法。本文提出了基于字符串的方法， 
该方法包括两部分： 

1) 预处理 部分： 根据统计规律产生的规則把 
消息处理成普通的字符串； 

2) 计算距离部分：采用曼哈顿距离和最短编 


辑距离的叠加计算两个字符间的距离. 

本方法不用进行自然语言理解的复杂计算，具 
有效率高、效果好、可扩展性强的特点。 

在未来的工作中，考虑在预处理部分的规則库 
中添加新规则。另外，计算距离的方法可以尝试采 
取其他的距离定义（例如 cosine 距离等），计算距离 
的加杈方法也可以进行其他尝试。本文提到的计算 
消息距离的方法对消息聚类也有帮助。今后，在大 
规模消息聚类中，还可以考虑采取分布式的方法（例 
如，分布式 K - nieans 聚类），提高聚类的 效率。 
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Fig 7 口 The frequency of media guidance influence on public 
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Abstract At present, people have ever-increasing preference for the Internet for expressing their 
personal experiences and opinions on almost anything at review sites, forums, discussion groups ， 
blogs ， etc. Those user-generated content contains very valuable emotional information. How to mine 
those emotional information automatically and efficiently will hence be a very challenging question, as 
well as be promising in applications and development of enterprise business intelligence and public 
opinion survey and so on. Text-leveled sentiment analysis technology is considered as an extension and 
enhancement of traditional topic detecting and tracking (TDT) technology by adding some new 
approaches and ideas，which is based on word semantic orientation computing. In this paper, a novel 
scalable word semantic orientation computing framework is proposed, in which the word semantic 
orientation computing is transformed into the function optimization. As an instance of the proposed 
framework, the authors build an undirected graph in the use of word similarity computing technology 
first, and then partition the word-to-word graph by the idea of 6 minimum-cut ? , thereby function 
optimization is adopted in this word semantic orientation computing framework and resolved by using 
simulated annealing algorithm. The experimental results prove that the proposed framework is 
reasonable and the algorithm performs better than those existing counterparts. 

Key words computer application ； Chinese information processing ； sentiment classification ； semantic 
orientation ； simulated annealing algorithm 

摘要当前，人们越来越倾向于通过互联网（论坛、讨论组、博客）表达自己对事物的观点、意见.如何利 
用计算机自动、有效地挖掘这些信息是一个具有挑战性的问题，并且在企业智能分析、政府舆情分析等 
领域具有广阔的应用空间和发展前景.文本倾向分析就是以挖掘、分析文本中所包含的情感信息为目的 
的一种技术，它是传统的话题发现与跟踪研究的拓展和深化，并为其提供了新的思路和方法.文本倾向 
分析的基础是词语语义倾向计算.提出一个可扩展的词汇语义倾向计算框架，将词语语义倾向计算问题 
归结为优化问题.在算法实现上，首先利用多种词语相似度计算方法构建词语无 向图； 然后利用以“最小 
切分”为目标的目标函数对该图进行划分，并利用模拟退火算法进行求解.实验证明了该框架的合理性 
以及求解方法的有效性. 
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随着互联网的快速发展以及 Web 2. 0 时代的 
到来，网络逐渐从单纯的静态信息载体变成了人们 
发表言论、展现个性的平台.面对如此海量的富含情 
感信息的文本，人们迫切地需要找到一种快速对大 
规模文本进行态度分析的方法.文本倾向性分析研 
究 [12] 就是在这样的背景下开展起来的 . 通常而言，词 
语语义倾向计算 [3] 是段落或篇章级语气分析的基础 . 

计算词汇的语义倾向目的就是要对每个未标注 
的词语赋予一个一 1 至 +1 之间的一个实数 . 其中， 
正负号用来表明语气的 褒贬； 实数的绝对值表明了 
褒贬的强烈程度 . 为简单起见，通常将词语的倾向性 
标为 一 1 或 + 1. 

该研究始于 1997 年 [4] ，通常利用词语相似度以 
及一些被人工标注语气的基准词来确定其余未标注 
词语的语义倾向 . 

在现有方法中，一部分方法 [5 6] 只利用未标注词 
语与基准词之间的局部信息，而忽略了未标注词语 
之间的全局信息，致使算法性能仍存在提升空间 . 

针对该问题，一些学者尝试利用基于图的方法 
进行词语语义倾向计算 [7 8] . Kamps 等人利用 
WordNet 提供的词语相似度进行词语语义倾向计 
算〜 ，但该方法只针对形容词，并只考虑了词语间的 
同义关系 . 

为了获得更高的词汇语义倾向计算精度，并减 
少基准词数量对实验结果的影响，本文提出一个新 
的求解词语语义倾向问题的通用 框架： 首先，利用词 
语相似度构建词语无向图，将词语语义倾向计算问 
题转化为图划分 问题； 然后设计对该图进行有效划 
分的目标函数，并进行求解 . 

根据这个框架，本文分别实验了由基于词典的 
词语相似度计算方法和基于词语共现率的相似度计 
算方法构建的词语无向网络 . 然后，以 “ 最小切分”为 
目标函数，并利用模拟退火算法进行求解.实验结果 
表明，该方法具有较高的准确 率; 并且对于基准词的 
数量变化相对不敏感 . 

1词汇语义倾向计算 

1.1 问题定义及求解框架 

如果这样设想，用一个无向图来表示字典中所 
有词语的关系 . 构建无向图 G={V ， £}, 其中， V 为 


图中的节点集合，代表字典中的每个单词 ; E 为图中 
的连边集合，代表词语两两之间的相似度 . 

本文基于这样的假 设：具 有较大的相似度的两 
个词语更有可能具有相同的语义倾向 . 这样，词语的 
语义倾向计算问题可以归结为对图 G 进行划分，使 
得符号相同的节点子图相似度之和 最大； 同时，使符 
号相异的节点子图相似度之和最小 . 这样，就确定了 
图中每个词语的语义倾向 . 

基于这样的假设，我们将问题形式化描述 如下： 
定义 1. W 为包含所有语义倾向待定的词语的 
集合，所包含词语的个数为 N=|W|. 

f 1 ， if there is an edge joining vertices i ,j , 

Wij = 

(0 ， otherwise. 

( 1 ) 

定义 2. CdP 0 2 为 W 的划分，即 

w,c l uc 2 =w,c 1 nc 2 =0. 

同时，为了便于说明，定义两个指示 函数： 


Oi = 


if z e c x , 

if z e c 2 . 

(2) 

d(ai 9(7 j ) 

={ 

1 ， if (7i — ? 

0 ， otherwise. 

(3) 


本文以 “ 最小切分 ” 为目标对图进行划分，目标 
函数需满足以下几个 条件： 

1) 奖励子类内部的 连边； 

2) 惩罚子类内部的非 连边； 

3) 惩罚子类间的 连边； 

4) 奖励子类间的非连边， BI] 

fir(W) =- + 

int ernallinks 

(1 — 9(Jj ) + 

i^j v ; v ; " 

int ernalnon — links 

cij W\ — d((7i — 

; 夫 j externallinks 

Yjdi> (1 -W.jKl (4) 

extemalnon — links 

其中， a y _ ， q < 代表这 4 个条件的权重.对于 
本问题，令〜 = c, ；； ， 6,; = 4 . 

同时，可以将目标函数所满足的条件归为 两类： 
条件 1 和条件 2 用于增加子类的内 聚性； 条件 3 和 
条件 4 用于减少子类之间的耦合性 . 

这样，我们得到了 一个可扩展性较好的词语语 
义倾向计算 框架： 
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1 ) 利用词语间关系构建词语无向网络图（本文 
分别使用基于词典和基于语料两种方 法）； 

2 ) 将词语语义倾向计算问题转化为图划分问 
题，并进一步转化为函数优化问题（本文以“最小切 
分”思想设计目标函 数）； 

3) 构建求解算法对目标函数进行求解（本文使 
用模拟退火算法进行求解）. 

在下面小节中，将分别介绍该框架的几个组成 
部分. 

1.2 词汇相似度计算 

词汇相似度计算是自然语言处理、信息检索和 
信息抽取等领域的一项重要且基础的工作 [1 ° ] ，目的 
是度量词语之间的相似程度.通常，相似度值被定义 
为0〜1的一个实数，绝对值越大相似度越高. 

之前主要有两种思路，一种是利用统计方法，通 
过分析大规模语料中的词语分布规律，得出词语的 
相 似度； 另一种是基于词典的方法，比如英文词典 
WordNet 和中文词典知网（英文名称为 HowNet ) [11] . 
本文分别采用了基于语料统计的相似度计算方法和 
HowNet 提供的词语相似度计算方法作为构建词语 
无向网络图的基础. 

1 . 2. 1 基于共现率的词语相似度 

互联网作为一个巨大的语料库，其价值已被越 
来越多的人认识.本文将传统的基于词语共现率计 
算相似度的方法进行适当变化，使其可以应用于互 
联网语料. 

在下面各公式中，代表在搜索引擎中输 
人查询 P 所得到的返回页面数 . PHQ 代表词语 P 
与词语 Q 的联合查询（即和 Q ”）. 并且，由于网 
络数据中存在噪声，在某些网页中共现的两个词也 
许只是出于偶然，为减少这样的影响，我们定义阈值 
C ®， 如果联合查询 PflQ 所返回的页面数 H ( PHQ ) 
小于该阈值，则将词语 P ， Q 之间的相似度设为 0. 
各公式定义 如下： 


PCJaccard ( P ， Q ) = 


o, if h(p n Q) < c, 

_ h(p n Q)_ 

H ( P ) + H ( Q )- H(P n Q) 


otherwise . 


(5) 


PCOveriap ( P , Q )= 
ro, if H(P n Q) < c, 

]_2 H(P H Q )_ otherwise 

Uin ( H (_ P )， H ( Q ))，° therW1S€ 


( 6 ) 


PCDice ( P ， Q )= 


o, if h(p n q> < 


2 H ( P , Q ) 

WcpYTWq ) 


otherwise . 


PCPMI ( P , Q ) 


ro, if H(P n Q) < 

1 

r h(p n q ) 、 

log 2 

N 

H ( P ) H ( Q ) 


{ N N J 


otherwise . 


(7) 


( 8 ) 


在这里， N 代表搜索引擎所有索引的网页数 
量.我们使用 google 提供的数字 10 M 作为 N 的估计 
值.然后，我们利用上述各种方法得到的两两词语之 
间的相似度，构造词语无向网络图. 

1. 2. 2基于 HowNet 的词语相似度 

《知网》是一个以汉语和英语词语所代表的概念 
为描述对象，以揭示概念与概念之间以及概念所具 
有的属性之间的关系为基本内容的常识知识库 [11] , 
本文使用了 HowNet 提供的语义相似度的计算功 
能.语义相似度的计算功能是根据文献 [12] 中的原 
理编写的词汇语义相似度计算程序，实现了词语之 
间语义相似度的计算. 

1.3 问题求解 

由于该问题是一个 NP 完全问题 [13] ，本文引人 
模拟退火的思想，将解决问题的过程转化为在目标 
函数的解空间中搜索最优解的过程. 

模拟退火算法是局部搜索算法的扩展，它不同 
于局部搜索之处是以一定的概率选择领域中的最优 
值状态，理论上已经证明它是一个全局最优算法并 
且以概率1接近最优值. 

基于模拟退火的词语语义倾向判定算法 
( SOSA 算法)首先将网络随机初始化，并设定一个 
高的初始“温度” r ( i ). 模拟退火算法能否找到全局 
最优解，取决于初始温度 T ( l ) 是否足够高以及温度 
下降得是否足够慢，而这些正好与程序收敛时间相 
矛盾.为了平衡解的质量与收敛速度，我们通过后面 
的实验(参见图2和图3)，将算法的这些参数调整 
为比较合适的值. 

然后随机地选择一个节点/，假定其现在的状 
态是 w = + 1，计算在这种构型下的系统总能量 
，接着，再计算如果改变到候选状态， S 卩％ — 1 

时，对应的系统能量 E 6 ，如果候选状态的能量 E h < 
E a ，则接受这个状态 改变； 如果能量&反而更高，则 


①在本文实验中.将 f ■设为 5. 
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以概率 exp { — A £ a Jr («} 接受这个状态的改变.其 
中， m = Et — E a . 

SOSA 算法持续多次随机轮询（选择并测试）节 
点，并根据以上方式进行状态改变.然后，逐渐将温 
度下降，重复下一轮操作.接受能量增加的候选状态 
的概率也逐步下降.算法继续进行，直到每个节点都 
被访问多次后温度进一步下降，查询过程也重复进 
行.当温度非常低时，接受能量增加的状态转移的概 
率非常小，此时系统的行为类似贪心算法.算法伪代 
码如下 所示： 

算法 1. SOSA 算法 • 

① begin initialize T ( k ) , k mtix , s ； ( 1) , i , 

j = l ，… ,N 

② k—Q 

③ do k-*~k + 1 

④ do 随机地选择节点“假设它的状态为 

Si 

⑤ 根据式 （4) 计算系统当前能量 £ a 

© E b — — E a 

⑦ if E h < E a 

⑧ then Si = ~Si 


篇和笔记本电脑评论901篇，总计2892篇. 

Table 1 Composition of the Document-Leveled Test Data 


表 i 实验用文档测试集构成情况 


Domain 


Data 



Total 

Negative 

Positive 

Blog 

1003 

508 

495 

Movie Review 

988 

500 

488 

Notebook 

901 

450 

451 

Total 

2892 

1458 

1434 


词语的语义倾向判断具有不确定性，表现在两个 
方面 :首先 ，部分词语在不同的语用环境下具有不同 
的语义倾向.比如，通常来说，“轻薄”是一个贬 义词; 
而在笔记本领域，它却是一个褒义词.其次，对于同一 
个词，比如“彪悍”，不同的人的判断也是有差异的. 

为减少上述因素产生的影响，本文在从文档测 
试集生成词语测试集时，采用多人共同标注的方法， 
并在构建通用领域测试集时尽量避免选择语义倾向 
与语用领域相关的词语. 

最终，本文共生成3个词语测试集，构成情况如 
表2 所示； 测试集中的部分词语如表3所示. 


⑨ else if exp { — ( E * — E „ ) / T ( ^ ) } > 
Ra ? id \^0, 1) 

⑩ then Si = —Si 

⑪ until 所有节点轮询多次 

⑫ until A = 々 mal ^ 停止准则满足 
⑬ return E,Si,i=\ ,••• ,N 
© end 

2 实验及分析 
2 . 1 生成测试集 

本文实验使用了情感博客、电影评论和笔记本 
电脑3个主题的中文评论数据，所有数据都是我们 
从互联网的相关中文评论网站采集获得的.由于同 
一主题的评论可能出现在不同的评论网站，为防止 
数据集中出现重复的样本，对于特定的 URL 地址 
我们指定了特定的采集者.语料采集后，经过抽取， 
转换成统一的文本格式，并经人工标注极性（正面评 
论或负面评论），最终得到实验使用的数据集.数据 
集中的样本情况如表1所示. 

文档集中包括情感博客1003篇、电影评论988 


Table 2 Composition of the Word-Leveled Test Data 
表 2 实验用词语测试集构成情况 


Test Data 

Total 

Negative 

Positive 

Testsetl ( General ) 

6005 

3260 

2745 

Testset 2( Movie ) 

240 

120 


120 

Testset 3( Blog ) 

240 

118 


122 

Total 

6485 

3498 

2987 

Table 3 Part of the Test Sets 


表 3 

部分测试集中的词语 


General 

Movie 


Blog 

福分感激甘之如 

巅峰光环震动人心 

舒服灿烂纯真飞 

饴别具匠心才华 

如火如荼创造力大 

扬青春美好和谐 

横溢昌盛出色 

师魅力恰到好处 

宽容 

自由自在欢 

淳朴得体独到 

力透纸背逼真呆板 

愉委屈崩溃无理 

薄情保守饱食终 

游离走火人魔莫名 

取闹 

无地自容格 

日抱佛脚暴殄天 

其妙画蛇添足煽情 

格不人荒废挣扎 

物悲惨粗鄙吹 

噱头支离破碎郁闷 

自不量力惨不忍 

毛求疵畸形尖酸 

扭曲 


睹浑浑噩噩 


2.2 实验设计 

2.2.1 生成词语无向网络图 

建立词语无向图网络之前，需要首先度量词语 
之间的相似度.本文采用了 5种方法度量词语之间 




的相似度. 

首先，如第 1 . 2.2 节所述，我们使用了基于 
HowNet 的词语相似度计算方法. 

由于基于 HowNet 的词语相似度的度量方法 
的结果很大程度上依赖于领域专家的背景知识，为 
减少度量词语相似度时人为的差异.本文还分别基 
于式 （5) 〜（8)，度量两个词语 P ， Q 之间的相似度. 

之后，本文利用这5种词语相似度，分别构建了 
词语无向网络图. 

2.2.2 验证目标函数的合理性 

另外，我们也通过实验验证了该目标函数与准 
确率之间的关系.在模拟退火算法的迭代过程中，我 
们截取其中的一部分解，为了便于观察，我们将这些 
解按照能量进行排序，绘制了目标函数值与语义倾 
向判断准确率的关系图.该实验结果如图1 所示： 


0. 92 0. 96 1.00 1.04 1.08 

10 _5 x Energy 

Fig . 1 Correlation between energy and accuracy (on 
Testsetl ). 

图 1 能量值与准确率的关系曲线（测试集 1) 


当排除一些噪声之后，可以看出，目标函数与准 
确率是负相关的，随着能量值的逐渐降低，结果的准 
确率在逐渐下降.这说明了以词语相似度构建的词 
语网络的聚团性，也从实验角度验证了本文所选取 
的目标函数的合理性. 

2.2.3 调整算法参数 

在 SOSA 算法中，初始温度、温度的下降速度 
以及在每个温度值时程序的内层循环次数对于收敛 
速度与结果准确率有较大的影响.在使用该算法时 
需要调整参数，以在结果精度与收敛时间之间作出 
权衡.本文分别实验了迭代次数对结果准确率和收 
敛时间的影响，如图2、图3所示. 

根据上述实验，本文将初始温度设为词网中所 
有词语的两两相似度 之和； 温度下降速度设为 
98%;同时，为保证算法在每个温度值时能尝试更多 


0 2 4 6 8 10 12 

10 _7 x Times of Inner Loop 

Fig . 3 Impact of inner loop times turning on run time 
(on Testsetl ). 

图 3 程序内层循环执行次数对运行时间的影响（测试 
集 1) 

的可能，将内层循环次数设为词网中单词的个数. 
2.2.4 基准词数量对实验结果的影响 

我们用 HowNetSAF®F 方法和 HowNetPMI 
方法测试了基准词数量对于结果准确率的 影响: 
表4中列出了实验中所使用的基 准词： 

Table 4 40 Pairs of Paradigm Words 

表 4 40 组褒贬基准词 

Positive Paradigm Words Negative Paradigm Words 

好光环得体震动人心巅峰不良弊病痴呆莫名其妙粗暴 
福分感激魅力别具匠心大功利主义固步自封愁惨不忍睹 
师鼎盛出色淳朴甘之如饴悲惨诡异狠毒假冒吹毛求疵 
独到绚丽恰到好处优秀才粗鄙尖酸浑浑噩噩暴殄天物自 
华横溢创造力积极如火如不量力抱佛脚薄情保守饱食终 
荼著名力透纸背逼真舒服日崩溃畸形画蛇添足委屈坏 
灿烂纯真飞扬青春美好和变态失败呆板游离走火人魔 
谐宽容自由自在欢愉成熟痛苦毛病煽情噱头支离破碎 
诚实善良和平文明 郁闷扭曲 

图4中分别测试了两种方法在3个测试集上不 
同的基准词数量对结果的影响. 
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5 10 15 20 25 30 35 40 

Paradigm Words/Pair 

Fig. 4 Impact of paradigm words number turning on 


图 4 基准词数量对实验结果的影响 

从图4可以看出，对于 PMI 方法，在每个测试 
集上，尽管大体上随着基准词数量的增加而准确率 
有所提高，但基准词数量仍然对词语语义倾向计算 
结果具有较大的影响（当基准词数量的变化幅度为 
35时，词语语义倾向的准确率的变化幅度为30个 
百分点）.而由于本文提出的方法更多的利用了词语 
间的全局信息，对于基准词数量的变化是相对不敏 
感的 • 

2.2.5 词汇实验结果 

对词网中所有词语的语义倾向计算结果如表5 
所示.作为对比，本文选择同样利用 HowNet 语义 
相似度的方法 W 进行比较.由于在该文献中，所有的 
实验结果均显示语义相似度方法的准确率高于语义 
相关场方法，故本文只与语义相似度方法进行比较. 
本文利用下面公式计算词汇准 确率： 


Accuracy 


X ) f re ( l、 r 

2] freq{\ 


其中， freqiword ) 表 7 K 词语 word 的词频，代表 
语义倾向判断正确的词频， ™ 代表测试集中的所有 
单词 • 

表5中的 HowNetPMI 即为文献 [6] 中使用的 
方法在使用40对基准词时的结果. 

其中，方法命名是以构建词网的词汇相似度度 
量方法加上求解词汇语义倾向的方法构成的.各种 
构建词网的词汇相似度方法在第 1. 2. 1和第 1. 2. 2 
节中有详细 介绍； 以“ PMI ” 结尾的方法，代表基于 
PMI 的 算法； 以“ SA ” 结尾的方法，代表基于模拟退 
火的算法. 

在表5中，通过对比两种基于 HowNet 相似度 


的方法 （ HowNetPMI 和 HowNetSA ) 可以发现，由 
于本文方法可以更充分地利用词语间的全局信息以 
及由于模拟退火算法可以以概率1逼近最优解的特 
性，使得 HowNetSA 方法较之 HowNetPMI 方法有较 
大的性能 提升； 通过对于“ SA ” 类算法 （ PCJaccardSA , 
PCOverlapSA ， PCDiceSA ， PCPMISA ， HowNetSA ) 
的比较，可以发现， PCDiceSA 具有和 HowNetSA 
相当的准确率，说明当语料数量充足时，利用基于共 
现的方法可以实现较高的词语语义倾向计算准确 
率，这与论文献 [5] 中的实验结论是一致的. 

Table 5 Experimental Results of Word Classification 


表 5 词汇实验结果 

Approach 

Testset 

Accuracy/ % 


Testsetl 

78. 6 

HowNetPMI 

Testset2 

80. 7 


Testset3 

81. 2 


Testsetl 

88. 9 

PCJaccardSA 

Testset2 

87. 8 


Testset3 

88. 2 


Testsetl 

88. 4 

PCOverlapSA 

Testset2 

86. 9 


Testset3 

87. 4 


Testsetl 

92. 6 

PCDiceSA 

Testset2 

90. 3 


Testset3 

90. 1 


Testsetl 

89. 7 

PCPMISA 

Testset2 

88. 2 


Testset3 

87. 7 


Testsetl 

95. 0 

HowNetSA 

Testset2 

90. 3 


Testset3 

90. 6 


2.2.6 文档实验结果 

为进一步验证词语语义倾向计算的结果，我们 
利用 testsetl 中已计算出褒贬的词语，对文档进行 
语气分类.由于需要综合考虑褒、贬文档，本文采用 
如下方法计算文档准 确率： 

Accuracy = — ^ ^ ^-, (10) 

a + b + c + d 

其中， a 表示被正确判断为正的实例的个数,6表示 
被误判为正的实例的个数， c 表示被误判为负的实 
例个数， c / 表示被正确判断为负的实例的个数.文档 
语气分类结果如表6 所示： 




























J 


-a- HowNetPMI on Testset 1 
-a- HowNetPMI on Testset 2 

J 



…… .f ••人 

/ 


-©- HowNetSA on Testset 1 _ 




HowNetSA on Testset 2 




HowNetSA on Testset 3 
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Table 6 Experimental Results of Text Classification 


表 6 文档实验结果 

Approach 

Testset 

Accuracy/ % 


Blog 

68.8933 

HowNetPMI 

Movie 

57.1717 


Notebook 

71.2542 


Blog 

72.7817 

PCJaccardSA 

Movie 

56.1616 


Notebook 

75.6937 


Blog 

73.4796 

PCOverlapSA 

Movie 

60.404 


Notebook 

75.3607 


Blog 

73.4796 

PCDiceSA 

Movie 

56.9697 


Notebook 

77.5805 


Blog 

74.5763 

PCPMISA 

Movie 

59.3939 


Notebook 

74.3618 


Blog 

75.9721 

HowNetSA 

Movie 

60. 00 


Notebook 

79.6892 


从该实验可以看出，随着词汇语义倾向计算准 
确率的提升，文档倾向分类的准确率也随之提升，这 
从一定程度上证明了本文方法的有效性和实用性. 

3结 论 

本文提出了一个计算词语语义倾向的通用框 
架： 首先利用词语间关系构建词语无向网络图；将词 
语语义倾向计算问题转化为图划分问题，并进一步 
转化为函数优化问题并进行求解. 

根据这个框架，本文分别实验了由基于词典的 
词语相似度计算方法和基于词语共现率的相似度计 
算方法构建的词语无向网络.然后，以“最小切分”为 
目标函数，并利用模拟退火算法进行求解. 

实验表明，该框架具有很好的可扩展性和鲁棒 
性： 可扩展性体现在，可以利用各种计算词语相似度 
的方法，并利用各种启发式算法对其进行 求解； 由于 
模拟退火算法可以以概率1逼近最优解的特性，使 
得该方法具有较好的鲁棒性. 

本文各实验所使用的词语相似度，只是对词语 
关系的一种很表面化的度量.同时，也刻意忽略了机 


器翻译意义下的相似度与词语语义倾向计算中所要 
求的相似度之间的差别.如果采用更加准确的词汇 
相似度度量方法，相信会得到更好实验结果.另外， 
相似程度只是词语间关系中的一种，如何发现词语 
之间更为本质的关系，将是今后工作中的一个重要 
问题. 
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基于概率推理模型的博客倾向性检索研究 
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Research on Blog Opinion Retrieval Based on Probabilistic Inference Model 
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Abstract In recent years people and enterprises have paid more and more attention on the fast growth 
of new media blog (derived from “Web blog”）Web sites . Blogs constitute a huge blogsphere by 
trackbacking and recommending each other . In this blogsphere , people could freely express their 
opinion and feelings about topic they interested in , and could also comment on new product in the 
market . Retrieving blogger’s opinion on lead story and hot topic is very important for applications 
such as market survey , network public opinion discovery and warning . The goal of blog opinion 
retrieval is to retrieve the blog post that not only relate to given query but also has comment on the 
query . The paper introduces probabilistic inference model into blog opinion retrieval , and presents an 
algorithm based on probabilistic inference model . The model combines topical scoring and sentiment 
scoring to a uniform probabilistic inference theory model，could effectively reveal the topical facets 
between blog post and query and the strength of sentiments about the given query and then combine 
the resulting topical score and sentiment score to constitute final score . Experiment result shows that 
the algorithm could effectively model the topical facets and sentiments , and could also identify the 
opinions about given query . 

Key words blog ； opinion retrieval ； probabilistic inference model ； information retrieval ； text mining 

摘要近年来博客作为一种新兴的大众化新闻发布媒介越来越受到人们和业界的关注.博客之间通过 
互相引用、互相推荐形成一个巨大的博客空间.在博客空间中，人们既可以自由发表对现实生活各种问 
题的观点，表达自己的情感，也可以对市场上出现的新产品进行评论.准确检索出博客空间中人们对重 
要话题、热点事件的观点看法对市场调研、网络舆情发现与预警等应用有重要意义.博客倾向性检索的 
目标是检索出与给定查询既要主题相关又要有与该查询相关评论的博文.为实现该目标，把概率推理模 
型应用于博客倾向性检索中，提出一个基于概率推理模型的博客倾向性检索算法.该算法把主题相关性 
评分和倾向性评分合并到一个统一的概率推理理论模型，能够有效计算博文中出现的主题描述与查询 
的主题相关性，合理度量倾向性词描述查询主题的倾向性强弱，并融合二者分数形成最后整体评分.实 
验表明，该算法能够有效地识别博客空间中与给定查询相关的观点，获得较好的结果. 
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近年来博客作为一种新兴的大众化新闻发布媒 
介越来越受到人们和业界的关注.与传统的网页、 
BBS 不同，博客更注重个性化与互动 性：博 客以日 
记体形式体现，包含明确的时间标签，人们可以在自 
己的博客发布新闻，阐明自己的真实观点，表达自己 
的 情感； 读者可以反馈评论给博主（即博客作者）的 
形式与博主进行互动；博主可以按照系统提供的模 
板管理博客. 

博客作为人们真实情感和事件评论的体现，整个 
博客空间可以看成是一个巨大的倾向性 （ opmion ) 知 
识库.该知识库具有大量的添加人员（博主），覆盖面 
大，实时性强，蕴含着丰富的舆情信息，具有很强的 
实用价值.博客的倾向性价值引起国内外学术界的 
广泛关注 [1 —\自2006年以来 NIST 组织举办了国 
际 TREC 博客倾向性检索 （opinion retrieval ) 评测 
比赛 M .与传统的检索不同，博客倾向性检索的目 
标是检索出与给定查询既要主题相关又要有与该查 
询相关的评论的博文. 

目前典型的做法往往把倾向性检索过程分成3 
个分开的 步骤： 首先检索出给定查询相关的博文并 
得到主题相关性分数，然后对这些主题相关的博文 
进行倾向性评分，最后融合二者分数得到最终评分. 
对于倾向性评分，主要有如下3类 方法： 第1类，在 
传统的检索基础上用该倾向性词表做查询扩展，加 
人倾向性因素，完成倾向性检索任务， Hannah 等 
人 [4] 通过用倾向性词典进行查询扩展，获得了达到 
15. 87%的性能 提升; 第2类是通过计算查询词与倾 
向性词的距离进行倾向性文档评分， Zhou 等人 [5] 计 
算查询词与特殊词（如“ I ” ， “ you ” ， “ me ” ， “ us ” ， 
“ we ”） 、查询词与倾向词的距离对文档倾向性评分， 
获得 13. 98%的性能提升，但是这类方法不能很直 
观地解释倾向性相 关性； 最后一类是基于统计机器 
学习的方法对文档进行倾向性评分， Zhang 等人 [6] 
采用概念识别和查询扩展检索主题相关文档，然后 
使用外部资源（通过在 rateitall . com , wikipedia . org 
和 www . google , com ) 获得观点句集合和中性句集 
合训练分类器，然后用分类器识别其中的观点句子， 
最后以观点句子为主的倾向性文本块进行倾向性评 
分，并用线性组合的方式得到较好的结果.虽然文献 
[3] 获得目前最佳结果（平均准确率为 0. 2052)，但 
是需要外部资源构建观点集合，有些甚至需要手工 


构建，需要训练分类器，效率低下. 

本文把概率推理模型应用于博客倾向性检索 
中，提出一个基于概率推理模型的博客倾向性检索 
算法.该算法能够有效计算博文中出现的主题描述 
与查询的主题相关性，合理度量倾向性词描述查询 
主题的倾向性强弱，并融合二者分数形成最后整体 
评分.实验表明，该算法能够有效地识别博客空间中 
与给定查询相关的观点，获得较好的结果. 

1相关工作 

国内外探讨与倾向相关的研究主要有以下3 
类：第 1类是倾向性 判别； 第2类是倾向性挖掘与预 
测； 第3类是倾向性检索.对于倾向性判别，大部分 
基于如下前 提：“ 假设文档只与某一主题相关，判断 
该文章是正态度、负态度还是中性”.自从 Pang 等 
人™比较了 3种统计学习方法判别电影评论文档的 
极性以来，存在这两类的解决方 法:一 类研究集中在 
寻找表达倾向性的特征，例如 Mullen 等人 M 整合了 
与 “ good , bad ” 的词对互信息、与 WordNet 语义距离 
信息、与主题词距离等特征，采用 SVM 分类器判 
别； Turney 等人 [9] 采用非监督方法计算文档短语与 
“ excellent , good ” 互信息作为特征判别文档倾向 
性； Whkelaw 等人 [1 ° ] 构建倾向性短语 （appraisal 
groups ) 作为特征对文档进行倾向性 分类； Jindal 等 
人 [11] 采用手工和自动方法构建规则，使用支持向量 
机 （ SVM ) 和朴素贝叶斯方法对英文比较句进行倾 
向性分类.另一类试图从方法层面来解决. Pang 等 
人 [12] 建立语义图并通过寻找最小子图，对该子图分 
析倾向性从而解决该问题.然而上述研究主要问题 
在于前提假设是否成立，即倾向性词是否真的描述 
该主题. 

对于第2类倾向性预测与挖掘， Mei 等人 [13] 提 
出一个主题-倾向性混合统计模型，获取与该主题相 
关的子主题以及与子主题相关的观点，然而该方法 
需要采用 EM 算法训练模型参数，需要付出较大计 
算 代价； Lu 等人 [14] 同样采用主题-倾向性混合统计 
模型，然而采用半监督方法以自动获取整篇文档的 
倾向性，此类方法虽然能提高性能，但是需要加入专 
家 因素； Mishne 等人 [15] 通过统计分析大量博主所 
写博文采用的用语挖掘得到该博主的在某个时间点 
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上的心情指数，从而得到整个博客空间心情指数随 
时间变化的情况. 

对于第3类倾向性检索，即把倾向性与主题相 
结合的方法是近年来兴起的一个重要的研究分支. 
TREC 2006 和 TREC 2007 的参赛队伍往往把倾向 
性检索过程分成3个分开的步骤 ：首先 检索出给定 
查询相关的博文并得到主题相关性分数，然后对这 
些主题相关的博文进行倾向性评分，最后融合二者 
分数得到最终评分.对于倾向性评分主要有如下3 
类方 法：第 1类是在传统的检索基础上用该倾向性 
词表做查询扩展，加人倾向性因素，完成倾向性检索 
任务. Hannah 等人 [4] 直接在 TREC 06 的结果集上 
抽取倾向词表，结合其他可获取的倾向性词典资源 
进行查询扩展，通过用 DFR ( Divergence from 
Randomness ) 模型对文档进行检索，获得了达到 
15. 87%的性能 提升； Rui 等人 [16] 从 Welsh 英文词 
典 、 General Inquirer 词典、 SentiWordNet [17] 词典手 
工收集倾向性词构成大约2000个词的倾向性词典， 
并用该词典对查询进行扩展，获得大约11 %的性能 
提升.第2类是通过计算查询词与倾向性词的距离 
进行倾向性文档评分. Zhou 等人 [5] 计算查询词与特 
殊词(如 “ I ”，“ you ” ，“ me ” ，“ us ” ，“ we ”) 、查询词与 
倾向词的距离对文档倾向性评分，获得 13. 98%的 
性能提升 ； Vechtomova [18] 计算查询词与倾向性词 
的距离对文档得到 5. 8%的性能提升.最后一类是 
基于统计机器学习的方法对文档进行倾向性评分. 
Yang 等人 [19] 首先用半自动化的方法构建倾向性词 
典，然后基于该词典采用高频词模型、低频词模型、 
IU 模型等5种模性对文档进行倾向性评分,最后用 
加权和方法进行融合得到最后倾向性 评分； Liao 等 
人 [2 ° ] 基于推拉策略的分类方法用 Trec 2006 的答案 
集进行训练，对文档进行倾向性评分. Oard 等人 [21] 
首先基于字典和机器学习的方法构建倾向性词典， 
然后再根据倾向性词典对判别各个段落的倾向性分 
数，最后整合各个段落分数形成整篇文档 分数； 
Zhang 等人 M 对主题寻找训练集合，通过在 rateitall . 
com , wikipedia . org 和 www . google , com 的观点句集 
合和中性句集合训练分类器，然后用分类器识别其中 
的观点句子，最后以观点句子为中心建立窗口大小为 
2个句子的倾向性文本块，分析倾向性文本块是否包 
含查询词，得到主题相关的倾向性文本块数目来对文 
档进行评分.该方法需要访问外部资源建立训练集合 
进行训练，效率比较低. 

如何能够清晰地表达博文所描述的内容，合理度 


量各个主题描述的评价，并有效整合成倾向性检索分 
数？如何在保证效果的情况下，取得较高的效率？本 
文把概率推理模型应用于博客倾向性检索中，提出一 
个基于概率推理模型的博客倾向性检索算法.该算法 
能够有效计算博文中出现的主题描述与查询的主题 
相关性，合理度量倾向性词描述查询主题的倾向性强 
弱，并融合二者分数形成最后整体评分.同时，本文的 
算法采用的是 SendWordNetEW 倾向性词典，无需采 
集网络上的倾向词，也不需要训练分类器，效率较高. 
实验表明，该算法能够有效地识别博客空间中与给定 
查询相关的观点，获得较好的结果. 

2博客倾向性检索模型 

目前在文档检索模型中往往主要考虑词频因素， 
计算文档与查询在统计意义上的相关，而不考虑语义 
层次.而倾向性检索不仅要考虑文档与查询的主题相 
关性,而且要合理度量整篇文档对查询主题的倾向性 
评论强弱. 

2.1 倾向性检索模型 

对于主题相关性检索，采用贝叶斯网络，给定文 
档 d 和查询 Q 对文档依据文档^与查询 Q 相关的概 
率 MHd ) 进行排序.如图1左侧贝叶斯网络，只考虑 
主题相关性因素是通过引人隐变量查询词 Q ， 计算由 
文档^与查询相关的概率进行排序. 


Fig. 1 Opinion Modeling based on probabilistic inference 
model. 

图 1 基于概率推理模型的倾向性建模 

然而，倾向性检索不仅要考虑主题的相关性，而 
且要考虑对查询评论的强弱.主题相关检索是倾向性 
检索的 前提; 倾向性强弱是相对于查询主题、附着在 
主题上的.脱离主题计算倾向性强弱是毫无意义的. 
因而我们通过贝叶斯网络引人主题相关性因素和倾 
向词性因素，对于文档进行倾向性评分. 

如图1右侧推理模型则考虑了主题相关性因素 
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和倾向性因素，通过加人中间两个层次、查询词隐变 
量 Q 和倾向性词隐变量 s 计算文档 d 与查询 Q 倾向 
性相关的概率 〆 H ^)， 并依据该概率对文档进行排 
序.具体的倾向性评分可以采用如下方法 计算： 

给定查询0、文档 A 对于 MH ^)， 首先考虑主题 
相关性，通过引人隐变量——查询词 Q 进行计算.我 
们假定文档 d 与 r 条件独立于隐变量 Q ， 则有： 

p(r I d ) = ^pir I q , d ) p(q \ d )= 
g€Q 

^jp I q ) p(q I d ). (1) 

考虑到倾向性词对主题的修饰作用，我们引入隐 

变量-倾向性 S 计算 p ( r \ q ) ，假定查询词 q 与 r 条 

件独立于隐变量 S ， 则有： 

p{r I q ) = ^ jp(r | q ^ s ) p(s \ q )= 

S 

y ^ jp(r I s ) p(s I q ), 

ses 

代人式 （ l ) 得到： 


pir I d ) — ^ ^ p (r ! s ) p(s \ q ) p{q \ d ) , ( 2 ) 

»6S ?6Q 

在式 （2) 中，我们一般采用词频计算 pG - k ). 当 
查询中包含比较常用的词时，在文档中出现的频率比 
较高， 〆 g | d ) 值比较大，导致过分估计倾向性评分.为 
了避免这种状况，我们通过引人 Mg | C ) 平滑 p ( q \ d ), 
其中 C 是所有文档集合.同时 ， p ( g |< i )/ p ( g | C ) 这个比 
值波动比较大，因而我们对该值取对数得到如下公 
式： 


,0-U)ccg ?/ 0-| ^l,)lo g g^. 

(3) 


2.2 模型各项的计算方法 


1) log 


p ( q \ d ) 

p ( q \ C ) 


A ( g | 心是经过平滑后的查询词词频计算所得的 
概率.其计算方法 如下： 


p(q I d ) = (4) 

2) p ( s \ q ) 

是倾向性词 s 描述查询词 g 的概率 . c ( s | 
g ) 是以查询词为中心、距离为参数 distance 范围内 
岀现的倾向词 s 的权值之和; c ( s ， g ， C ) 为检索岀的文 
档集合 C 中，以查询词 g 为中心、距离为参数 distance 
范围内同时岀现所有倾向词 s 的权值之和. 


" I 、 c(s | q ) weight (s ， q ) 

I q ) = - - ^ & --- 

cis ， q ， Cy ) 2 weight ( s 9 q ) 

(s ， q)ec 


(5) 


其中，倾向词权重不仅与倾向词本身的 


词强度有关，而且与倾向性词和查询词距离也有很大 
的关系.当倾向词 s 离查询词 g 越近其对查询词的评 
论程度越强;相反，当倾向词5离查询词 g 越远其对 
查询词的评论程度越弱.因此的计算可 
以采用如下 方法： 

weight ( s ， q ) = — --- X Rank , , (6) 

distance 


Rank , 是倾向词的强度，我们可以通过 SentiWordNet 
得到. 

3) p ( r \ s ) 

户 ( rU ) 是文档岀现倾向词 s ， 判定文档为相关的 
概率.可以通过贝叶斯规则转化为求 > G | r ) 和 p ( s ). 
假定语言模型检索岀来的前〃篇文档为相关，则 


p{r | s ) = 


pis I r ) 
pis ) 


(7) 


其中 ，^ G | r ) 则可用最大似然估计求得，而倾向词的 
强度按照式 (8) 计算： 


户( 5 | 厂） = c ( s , q ) = weight is , q ) 

c ( s ， q ， r ) ^ weight ( s ^ q ) 

(,s,t)er 

2.3 与主题相关性融合 


( 8 ) 


倾向性检索既与查询词的主题相关性有关又与 
倾向性相关.式 (3) 的目的是计算倾向性评分，因而必 
须融合主题相关性分数计算最终的倾向性检索评分. 
我们通过概率检索模型对倾向性建模,在得到倾向性 
评分后，采用迭代的方式融合基本语言模型的主题相 
关性分数，得到最终的倾向性检索评分，具体公式如 


下： 


Rank = Rank (\ + ^ I s ) p{s \ g)log | 

?eo ses 户 （g I c) 

(9) 


初始的 Rank 值为语言模型检索出来的值.基 
于语言模型的检索方法计算由文档推出查询的概 
率，即 

Rmk = p(q I d ) = C(q ^ I C ) ， (10) 

2_ jC ( q , d ) + fx 
<；eQ 

其中 d 代表文档， g 代表查询词， C 代表整个文档集 
合， c ( q ， d ) 为 X 裆 d 包含词 g 的个数， Mg | C ) 则为 
词在文档集合 C 的概率，而为整个模型的参数，采 
用基于 Dirichlet 平滑 • 


3倾向性检索算法 


为了使得算法合理收敛，我们引人算法迭代终 
止条件 ：在每 次迭代过程中，把排在前面个文档 
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作为相关文档，排在靠后的 W 个文档作为不相关文 
档，计算相关文档集与不相关文档集的 KL 距离，当 
该距离小于阈值时迭代终止.具体公式 如下： 

KL ( r , f ) =22 I g)log 户巧 、 I • 

( 11 ) 

该算法收敛的目标是对具有查询词和倾向词的 
文档排序进行微调，即通过迭代使倾向词描述查询 
词的文档排序尽量靠前，使倾向词并不描述查询词 
的文档排序尽量靠后.具体的算法描述 如下： 

算法 1. Function PRIB(Q , posts , n r , n r , T u ), 

1) Begin 

2) 设置参数，如相关博文单元个数 
〜、 不相关博文单元个数以及收敛阈值: r «. 

3) 对于每个查询主题0,执行步骤 3. 1) 〜 
3. 4)： 

3. 1) 用语言模型式 （10) 检索计算 raM 初 

始值. 

3.2) 取排名靠前的&个文档作为相关文 
档，取排名靠后的 &个文 档作为不相关文档.对于 
每个博文单元么用式 （9) 计算该博文单元的 rank 
值，并重新排序. 

3.3) 用式 （11) 计算相关博文单元和不相关 
博文单元概率分布上的 KL 距离. 

3.4) 若当前的 KL 距离与上一次的 KL 距 
离相比提升幅度小于，则转至3)，否则转至步骤 
3. 2). 

4) 输出排序结果. 

5) End 

4实验及相关分析 

为了测试和比较各个划分方法的性能以及与其 
他相关系统的比 较 [1 2] ，我们采用了 Blog 
TREC 2006 提供的数据集和2006 opinion retrieval 
track 比赛和2007 opinion retrieval track 比赛的共 
100 个查询主题，测试了基于概率推理模型的检索 
算法 （probabilistic inference based method , PRIB ) 
性能.该数据集是由各大博客网站在2005年12月 
到2006年2月期间采集大约320万页博文（大小约 
为 88. 8 GB ) 构成. TREC 2006 和 TREC 2007 各采用 
50个查询主题，这些主题领域分布广泛，包含电影 
评论、电视节目、政治、政治人物、电子产品、美食等 


等.每个主题都包含3个描述域： title , desc 和 narr . 
tkle 域是对该主题的简要表达，往往是几个单词，也 
是人们通常提交给通用搜索引擎的查 询词； desc 域 
是对 title 域的进一步描述，通常是一 句话； 而 narr 
域则是对 title 域的详细描述，阐明哪些文档是相 
关、哪些是不相关的，通常为一段话. 

表1和表2分别列出了基于概率推理模型的检 
索算法性能在 TREC 2006 和 TREC 2007 查询上的 
性能.检索性能主要通过平均准确率 （ MAP ) 来评 
价.我们在所采用的 Baseline 是通过算法 [22] 提取博 
客正文和评论后，采用基于 Dirichlet 平滑 （ = 2000) 
的语言模型进行检索. 

对于 TREC 2006, 我们的 Baseline 性能已经超 
过最好提交结果 （ Zhang 等人 [6] Map 0.1885)，采用 
PRIB 方法后性能得到进一步提升.在 TREC 2007 任 
务上， PRIB 方法同样可以提升倾向性检索的性能. 

Table 1 The Retrieval Performance of PRIB Method on 
TREC2006 Topic 

表 1 基于概率推理模型的检索算法在 TREC2006 主题上 


的检索性能 


Model 

MAP 

R-Prec 

bPref 

P@10 

Baseline-Language Model 

0.2135 

0.2874 

0.2825 

0. 4160 

Probabilistic Inference Based 

0.2211 

0.2902 

0.2874 

0.4360 

Method(PRIB) 

(+ 3 . 6 %) 





Table 2 The Retrieval Performance of PRIB Method on 
TREC2007 Topic 

表 2 基于概率推理模型的检索算法在 TREC2007 主题上 


的检索性能 


Model 

MAP 

R-Prec 

bPref 

P@10 

Baseline-Language Model 

0.3041 

0.3600 

0 .3779 

0.4460 

Probabilistic Inference Based 

0.3104 

0.3649 

0.3818 

0.4640 

Method(PRIB) 

( + 2 . 1 %) 





Zhang 等人 [6] 采用更多外部资源 （ Wekipedia , 
rateitall . com 等），而且需要训练分类器，效率比较低. 
基于概率推理模型的 PRIB 算法只基于 SentiWordNet 
倾向词典，无需训练，效率比较高. PRIB 算法从模 
型的角度出发引人倾向性因素，可以和查询扩展等 
其他因素结合，获得更高的检索性能.从式 （9) 可以 
看出，好的初始检索结果可以进一步提高倾向性检 
索性能. 

5结 论 

本文把概率推理模型应用于博客倾向性检索 
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中，提出一个基于概率推理模型的博客倾向性检索 
算法.该算法能够有效计算博文中出现的主题描述 
与查询的主题相关性，合理度量倾向性词描述查询 
主题的倾向性强弱，并融合二者分数形成最后整体 
评分.同时，本文的算法采用的是 SentiWordNet Cl7] 
倾向性词典，无需采集网络上的倾向词，也不需要训 
练分类器，效率较高.实验表明，该算法能够有效地 
识别博客空间中与给定查询相关的观点，并获得较 
好的结果. 
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Abstract 

Purpose - As a peer-to-peer scalable anonymous communication system, WonGoo is a tradeoff 
between anonymity and efficiency. Usually, the longer the path, the stronger the anonymity, but at the 
same time the heavier the overhead. WonGoo lengthens the anonymity path and reduces the 
overhead, providing strong anonymity and high efficiency with layered encryption and random 
forwarding. The purpose of this paper is to analyze its performance in detail. 
Design/methodology/approach - The paper focuses on measure the performance of WonGoo 
system with probability theory. First, it gives a brief description of the system and evaluate its 
payload. Then it presents a detailed security analysis of the system. 

Findings - It is shown that WonGoo can protect against (n - 1) attack and provide variable 
anonymity, as well as how confident the collaborators can be that their immediate predecessor is in 
fact the path initiator. The paper measures the anonymity degree provided by WonGoo system based 
on information entropy and compare it with other anonymity systems. 

Practical implications - The paper is helpful for the further development of WonGoo system. In 
addition, the results presented in this paper will be useful for users to design other anonymity system. 
Originality/value - WonGoo is a peer-to-peer anonymity system that provides strong anonymity and 
high efficiency with layered encryption and random forwarding. The paper presents a detailed analysis 
of its performance with probability theory and measures its anonymity degree with information theory. 
Keywords Internet, Data security 
Paper type Research paper 


1. Introduction 

With the rapid growth and wide acceptance of the Internet as a means of communication 
and information dissemination , concerns about privacy and security on the Internet have 
signtficantly grown up . Privacy not only refers to confidentiality of the information , but 
also to not revealing information who is communicating with whom . Anonymity is an 
essential requirement for privacy . Since Chaum (1981) proposed the mix network , many 
anonymous communication systems have been developed (Boucher et al ., 2000; Danezis 
etal ., 2003; Dingledine d a /” 2004; Freedman and Morris , 2002; Gulcii and Tsudik , 1996; Lu 
etal ., 2004; Moller et al ., 2003; Rennhard and Plattner , 2002; Reed etal , 1998) which protect 
the identities of the participants in various forms : sender anonymity protecting the identity 
of the sender , and receiver anonymity doing the one of the receiver . Relationship anonymity 
guarantees that both parties of a communication remain anonymous to each other . 

A mix is a store - and-forward device that accepts a number of fixed length messages 
from different sources , performs cryptographic transformations on the messages , and 
then forwards the messages to the next destination in an order not predictable from the 
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order of inputs . A single mix makes difficult tracking of a particular message either by 
specific bit - pattern , size , or ordering with respect to other messages . By routing 
through a mix network consisting of numerous mixes , determining who is talking to 
whom becomes even more difficult . Most existing anonymous systems are based on 
Chaum mix , such as Babel (Gulcii and Tsudik , 1996), Mixmaster (Moller et al ” 2003) 
and its successor Mixminion (Danezis et al ., 2003), Onion Routing (Reed et al ” 1998) and 
its successor Tor (Dingledine et al ., 2004), the Freedom network (Boucher et aL , 2000), 
Tarzan (Freedman and Morris , 2002), MorphMix (Rennhard and Plattner , 2002) and I 2 P 
( www . i 2 p . net ). However , all of the above systems have a heavy message overhead or 
communication cost , which limits their scalability and decreases their efficiency . 

Crowds (Reiter and Rubin , 1998) is an application layer protocol designed for 
anonymous browsing on the Internet . The basic idea of Crowds is to hide one user’s 
action within the actions of many others , in a form of the so-called crowd , which issues 
requests to end servers on the behalf of its members . Asa consequence , the end servers 
cannot determine the originating sender , since it is equally likely to have originated 
from any member in the crowd . The covert paths in Crowds are constructed using an 
algorithm with probabilities . Crowds provides sender probable innocence against an 
adversary who controls a certain fraction of the participants . However , Crowds 
provides no protection against a global eavesdropper . 

Based on mix ( Chaum , 1981) and Crowds (Reiter and Rubin , 1998), WonGoo (Lu et al. y 
2004) is a scalable peer - to-peer system for low-latency anonymous communication that is 
resistant to both eavesdropping and traffic analysis . It achieves strong anonymity and 
high efficiency with layered encryption and random forwarding . The original paper (Lu 
et al ” 2004) has presented a detailed comparison among WonGoo , Crowds and mix , 
showing that WonGoo makes a tradeoff between Crowds and mix by comparing their 
efficiency and anonymity . 

In this paper , we focus on measuring the anonymity provided by WonGoo system , as 
well as analyzing its payload . The question we consider here is whether the attacker can 
determine who initiated the path . The definition of anonymity used by us is given in 
Pfitzmann and Kohntopp (2003) as “Anonymity is the state of being not identifiable within 
a set of subjects , the anonymity set ”. We organize the paper as follows . In section 2, we 
present an overview of WonGoo system . In section 3, we evaluate its payload . In section 4, 
we provide a detailed security analysis , and measurement of its degree of anonymity 
based on information entropy in section 5. We conclude in section 6. 

2. WonGoo overview 

This section provides a brief overview of WonGoo protocol (Luet al ., 2004). A node that 
initiates an anonymous communication is called an initiator , and a node for which 
messages of the initiator are destined is called a responder . We use I to represent the 
initiator , R to represent the responder , and P z or Q t (i = 1,2,...) to represent a peer . Link 
by link encryption is also used to defend against a powerful adversary . 

There are two kinds of nodes , i . e . fixed nodes and probability nodes in a WonGoo path . 
The former , representing by Pi (1 < / < A ) will layered encrypt the messages received 
from its predecessor , while the latter , representing by Q - ( l<i < A , ; = 1,2,...), only 
forwards the message . In the rest of the paper , we use the terms “ peer ”, “ node ” and “ user ” 
interchangeably . The WonGoo protocol works as follows . 
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Step 1 

The initiator I determines the number A according to some probability distribution and 
chooses the first fixed node Pi from its neighbors , then each fixed node 
Pi (/ = 1， 2 , … ， A — 1) along the anonymity path picks the following node P z+ i and 
sends it to the initiator . The same nodes in set { Pi , P2 , …，尸 a } will be picked again . 
Note that the sender I and the receiver R are also fixed nodes , represented by Po and 
Pa + i , respectively . Suppose the initial message is Mq . The initiator I then creates an 
initial packet M \ with layer encryption and sends it to Pi . 

M r = K r ( R 0 , M 0 ); 

Mi = Ki(Ri, , S/, P/+i); 

M 1 = K 1 ( R h M 2 ^ S 1 , P 2 ). 

Mi is the message received by Pi and Ri is a string of random bits proposed by Chaum 
(1981). Si is the maximal number of nodes that messages M{ + i can pass between node 
Pi 3. ndP i + i . 

Step 2 

Pi decrypts the received message Mi to obtain the address of the next node P/+i in the 
path . In Chaum mix , Pi will forward the message to node P/+i directly . However , 
in WonGoo , it is not the case . If Si < 0, then node P { forwards the message M^i to node 
Pi + i directly . If Si > 0, then Si = S { — 1, and P / makes a random choice to either 
forward the message Mi + \ to P z+ i directly or to another node . Pi flips a biased coin to 
determine whether or not to forward M + i ; the coin indicates to forward with 
probability p {. If the flipping result is “ heads ' then Pi forwards the message M{ + i to 
Pi + i directly ; else Pi randomly selects another node (called probability node ) from 
its neighbors and forwards the message M r i+1 to it . The values of p { impacts the 
anonymity properties offered by the system . 




Step 3 


Q { receives the message M - +1 and obtains the address of next node P { + i , doing the similar 
operation as Pi ，If Q [ does not forward M z+ i to P/+i directly , it forwards M - f +1 to a 
randomly selected peer Q l 2 from its neighbors . Note that Qj (I <j < Si ) only does link 
by link encryption , not layered encryption while ^ does the rwo encryption operations . 

M'； +l = { M l +1 , S l -2 : P l+l ) 
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Step 4 

Finally , M 0 passes through the fixed nodes P\,P2, …， P“ 
forming a WonGoo path between / and i ?: 

I — Pi ~ Q \ — • • • 5 — ^2 ? …， Pi 

^,..., Qg. — -P/+1 ,... ,P\ — R 


, P \ and reaches to R , 
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All of the following messages pass along the same path. So do the return messages. An 
example is illustrated in Figure 1. 

For the purpose of description briefly, we define the concepts of fixed path and 
probability path. The path from one fixed node to a neighboring fixed node directly is 
called fixed path (the initiator and the responder are also fixed nodes); and the one between 
two neighboring fixed nodes that is built by random forwarding is called probability path. 
Obviously, when the length of a probability path is one, it becomes a fixed path. 

In a large scale peer-to-peer system, the topology information one node owns is local, 
not global. So it is possible that one node may reappear on a WonGoo path, forming a 
loop. Consequently WonGoo intends to decrease the probability of node reappearing, not 
to avoid it. In order to reduce nodes to reappear on a path, the fixed nodes determined by 
the initiator must be different in a WonGoo path. Furthermore, when a node forwards a 
message randomly, the next hop selected by it can’t be itself and the one before it. 


3. Payload analysis 

In this section, we analyze the payload of WonGoo system. In order to measure the 
payload of an anonymous communication system, Reiter and Rubin (1998) advised to 
evaluate the expected total number of appearances that each node makes on all paths 
at any point in time. For example, if a node occupies two positions on one path and one 
position on another, then it makes a total of three appearances on these paths. And it 
proposed an evaluating method in Sui et al. (2004) which can be described as follows. 
During a period, let A/" (A/" = 1, 2, .. •）be the size of the system, and M {M = 1,2,...) 
be the number of paths. The length of path m (1 <m < M) is {L m } which is a 
discrete random variable with probability dis 仕 ibution: 


p r {L m =k}=m, (o<m<i : e? 7 ⑻ = i ，々 =i ， v--) 


a) 


Assuming that it is randomly selecting nodes from the total N nodes when creating a 
path, then the expectation value of the payload of any node % (i = 1,2,... ,N) is 


m) 



m 


( 2 ) 


where £(L) is the expectation value of the length of path L. 


Figure 1. 

An example of WonGoo 
protocol 





• Qr • 


Bob 


Notes: Pi (/ = 0,1..., K+ 1) are fixed nodes, and Qj(i = 1 ，...， K+ 1, / = 1,2 ，...） 
are probability nodes. P k \ is a fixed path, and iQ\Q2Q7>Q^k ls a 
probability path. Furthermore 尸卜 “ ，户人 尸炎 +i is a mix path, denoted with 
dashed lines, and 尸尸 A * s a WonGoo 

path, denoted with solid lines. If pf= 0,then WonGoo evolves into mix; if 
K=0 then WonGoo evolves into Crowds 
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For simpleness, we assume that one node can reappear at any point on a path. So the 
payload of WonGoo system is lower than what we calculating in the following. The 
reason is that in WonGoo system not all nodes on a path can reappear, only some of 
them can reappear as described in section 2. 

There is at most one path initiated by a node during a period in WonGoo system, so 
in general M <N. In an extreme, M = N, meaning that the system operates fully, i.e. 
each node initiates one path. We calculate the expectation value E{Fi) of the payload of 
node Vi in this case. Firstly, we calculate the expected length of path L. Suppose that 
there are K (K >0) fixed nodes (not including the initiator and the responder) on 
path L. K = 0 means that there is no fixed node on path L, that’s to say, the system 
evolves into a Crowds system. As showed in Figure 1, we can say that path L is jointed 
by the probability path Li, 乙 2 , ...，&，... ,Lk+i whose length is H • ， 4, • •., fe+i, 
respectively, where l t > 1,^ = 1,2,... + 1. Itis assumed that the length of path Lis 

i? — 1 if there are R nodes (including the initiator and the responder) on path L. As a 
result, the expected length of path Lis: 


K+l 


K+l 




i=l 




r=l 


(^ + i) 

(m) 

a-p { ) 


IfM = N, the expected payload of node {i = 1,2,... ,A/") is: 


⑶ 


m) 



-m 


(K + l) 
a -如） 


⑷ 


It can be seen that when the system is full, the expected payload of WonGoo is 
influenced only by the number of fixed nodes K and the forward probability 
independing of the system size N. Figure 2 shows that the expectation E(F) increases 
linearly with the increase of fixed nodes number K. Figure 3 shows that with the 
increase of forward probability the expectation also increases. And when 
pf < 0.5, £(F) increases steadily, while when pi > 0.5, it increases sharply. 
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4. Security assessment 

4.1 Threat model 

WonGoo does not protect against a strong global adversary who can break any 
anonymity systems. Instead, we assume a well-funded adversary who can observe 
some fraction of network traffic; who can operate WonGoo nodes of its own; who can 
compromise some fraction of the WonGoo nodes on the network; and who can forge, 
modify, delete, or delay traffic. However, the adversary is not able to invert encryptions 
and read encrypted messages. 
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Figure 2. 

Expectation of payload vs 
the number of fixed nodes 



Figure 3. 

Expectation value of 
payload vs forward 
probability 



Pf 


4.2 (n — 1) Attack 

The (n - 1) attack can be performed by flooding a node with fake messages alongside a 
single message to be traced. The attacker manipulates the messages entering the node by 
delaying or deleting the genuine messages except for the target one and flooding the node 
with the fake messages simultaneously. When the node fires, the only message unknown 
to the attacker must be the target message to be traced. The success of {n — 1) attack 
depends on the attacker’s following abilities: (1) the attacker can observe arbitrary traffic 
on the network links; (2) the attacker can delay or delete the genuine messages without 
getting known by nodes; (3) the attacker can inject fake messages to flood the node; (4) the 
attacker can distinguish his messages from other messages at the outputting side. 
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Though some countermeasures (Danezis et al .， 2003; Glilcii and Tsudik, 1996; 
Moller et al., 2003; Kesdogan et al .， 1998; Danezis and Sassaman, 2003) have been 
proposed to defend (n — 1) attack, none of them can thwart it completely. However, 
WonGoo can successively protect against {n — 1) attack. In layered encryption mix 
systems, the next node of a fake message is known to the attacker though the coding of 
the message has been changed. According to this, the attack can identify his fake 
messages. While in WonGoo system, a node not only changes the coding of a message, 
but also forwards it randomly. This makes the attacker cannot distinguish his fake 
messages from the target one due to the indeterminacy of the next nodes of all the 
messages. 

4.3 Variable anonymity 

The main problem of long mix paths is the heavy overhead. Park et al. points out that 
the length of the ciphertext in mixnet grows proportionally to the number of mixes 
(Park et al” 1993). In WonGoo, we lengthen the path with random forwarding, reducing 
the overhead due to probability nodes only do link by link encryption, not layered 
encryption. An outside eavesdropper cannot relate the incoming messages and 
outgoing messages of a node due to link by link encryption, that’s to say, he cannot 
distinguish between probability nodes and fixed nodes. However, inside compromised 
nodes can do this. Assume that all nodes between two malicious nodes are probability 
nodes, then the two malicious nodes can recognize a message m between them because 
the probability nodes does not layered encrypt the message m. This means that 
the adversary can reduce the length of the path by excluding all the probability 
nodes between them. However, if there is at least one fixed node between them, then 
the adversary cannot do that because the encoding of the message m has changed 
when it passed through the fixed node. Hence, on condition that the path length is 
fixed, in order to achieve stronger anonymity, we should add fixed nodes and reduce 
probability nodes, but the cost also increases. Sometimes, we do not need too strong 
anonymity, then we can add probability nodes and reduce fixed nodes, achieving high 
efficiency. In a word, WonGoo provides a variable anonymity influenced by the number 
of fixed nodes and forwarding probability p{. It is a tradeoff between anonymity and 
efficiency. 

4.4 Collaborating nodes 

We call the nodes operated or compromised by the attacker corrupted nodes, or 
collaborators, and call those not corrupted honest nodes that would not offer 
any information to the attacker. Assume the size of WonGoo system is N, and there are 
C(1 < C < A/" — 1) corrupted nodes. The question we consider is if the attacker can 
determine who is the initiator. The analysis of the responder is same to that of the 
initiator. If the initiator itself is corrupted, then the system provides no anonymity 
protection. Considering any path that is initiated by an honest node and on which a 
collaborator occupies a position, the goal of the collaborators is to determine the peer 
that initiated the path. We assume that the contents of the communication do not 
suggest an initiator, the collaborators have no reason to suspect any peer other than the 
one from which they immediately received it, i.e. the peer immediately preceding 
the first collaborator on the path. All other honest peers are each equally likely to be the 
initiator, but are also obviously less likely to be the initiator than the collaborators ， 
immediate predecessor. We now analyze how confident the collaborators can be that 
their immediate predecessor is in fact the path initiator. 
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Let Hk(l < k) denote the event that the first collaborator occupies the Mi position on 
the path, where the initiator itself occupies the Oth position (and possibly others), and 
define Hk + = HkW Hk + \ V /4+2 V ... which means that there is a collaborator on the 
path. Let I denote the event that the immediate predecessor of the first collaborator on 
the path is the path initiator. When the first collaborator occupies the first position, 
its immediate predecessor is surely the initiator, i.e. Hi —> I, but the converse is not 
true, because the initiator might appear on the path multiple times. Given this notation, 
the collaborator now hopes to determine P(I\H\ + ) y the probability that the path initiator 
is the first collaborator’s immediate predecessor on condition that a collaborator is on 
the path. 

Let q = (N — C) /N, then 1 — q = C/N. We assume that the length of path L is i? if 
there are R nodes (including the initiator and the responder) on it, differing from the 
definition in section 3. 

If the first collaborator is on probability path L\, then 


P{H}) = {p iq r\l-q) 


( 5 ) 




- ipiqt 

1 ~piq 


⑹ 


where node i is on path Li, i.e. 1 < z < l\. 

If the first collaborator is on probability path L 2 , then 


P(Hf) = -Pi)q){piqt\l-q) 


⑺ 


P{Hl) = {Piq) k ~\{\-PM^l-q) 办 构 丫 ‘ 


m=0 


- A)g)(i - g) ( 1 
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where node i is on path L 2 , i.e. 1 <i < h. 

If the first collaborator is on probability path then 


k-i 


P 时 ） =-!)((! 


⑼ 


k-1 


4 — 1 


P(Hl) = -!)((!E(^) m 

j=l m=0 

= 1)((1 f 1 ~ ( : 1, pf 


( 10 ) 
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where node i is on path i.e. I <i < 4 - 







To simplify our discussion, let 

K+l 

P(H 1+ ) = Y / P(H[ + ) 




Ik+i = / ^ 1, then 
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( 11 ) 


where T = ((l-p { q)/(l- (M)’)((l - {piq)) l ~ x {l - {pi)q)/(l- pi) 

q) k+1 ))- 

We know that P(/|i/i) = \,P{H\) = 1 — q f andP(/|i/ 2 +) = \/、N — C). The last of 
these follows from the observation that if the first collaborator on the path occupies 
only the second or higher position, then it is immediately preceded on the path by any 
honest peer (including the initiator) with equal likelihood. Now P(I) can be captured as 

P(I)= ■ 尸 ( 腦 ） + 順 +) 尸 (/| 场 +) 


(1 - ?) + 


1 


N-C 
-9 W 1- ipiQ) 


(p(H 1+ ) -pm) 


-({p^a-PiW 

\N~Cjy l-M 八 1 - ((M)’ _1 (l -Pi)Q), 

(iV-C-l)(l- ? ) 

N-C 

{l^q){l+T{N ^C-l)) 


Then, since / — H\ + we get 


p ( 职 i + ) 


T[N - C) 


P(I/\H 1+ ) 


( 12 ) 
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P(H 1+ ) 
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P(I) 

P{H l+ ) 

l + T{N -C-\) 
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(13) 
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When if = 0, / ^ oo, we can see that P(Hi + ), P(I) and P(I\Hi + ) are same to that of 
Crowds (Reiter and Rubin, 1998). The reason is that WonGoo has evolves into Crowds 



















m this case. In real system, because the initiator cannot appear m any position on a 
path, the probability P(I\Hi + ) will smaller than above conclusion. 

From equation (13) we can see that the degree of anonymity provided by the system 
increases with the increase of forward probability and the path length, and reduces with 
the increase of corrupted nodes. In addition, it is hard to increase its anonymity 
significantly only by increasing the size of the system. The reason is that anonymity is 
achieved by hiding one’s actions within the actions of many others. Anonymity is the 
stronger, the larger the anonymity set is. However, only some users participate in a 
communication in a large scale peer-to-peer system. So it is hard to increase its anonymity 
significantly only by increasing the size of the system, we must take some other measures 
to ensure the attacker believe that all nodes participate in a communication. 

5. Measuring anonymity based on entropy 

Howto measure anonymity is a challenging work. Diaz et al. (2002) and Serjantov and 
Danezis (2002) proposed a metric to measure anonymity based on information entropy, 
respectively. In a system with Abusers, let U = {^i, ^2, • • •, ^n} be the anonymity set, 
and Z be the discrete random variable with probability mass function pi = P r (X = Uj) 
with which the attacker guesses peer i is the initiator. Each U{ e U corresponds to an 
element of the anonymity set (a sender). Ideally, before the execution of an attack every 
Ui will be the initiator with a priori probability pi = 1/N from the attacker’s view on 
the system. After the attack, the adversary might get additional information that helps 
to change the probability distribution on the anonymity set, and assigns a posteriori 
probabilities to the users. Entropy can be used as a measure to describe the degree of 
anonymity the system provides against a specific attack. For each sender belonging to 
the senders set of size N, the attacker assigns a probability pi = !)• The 

posteriori entropy of the system denoted by H(X) can be calculated as: 

H(X) = \og 2 {p t ). (14) 

i=l 

Obviously the maximum entropy Hj^oi the system is 

Hm = max(i/(X)) = log 2 N. (15) 

The information that the attacker has learned with the attack can be expressed as 
Hm — H(X). Diaz et al (2002) normalize this information and define the degree of 
anonymity provided by the system as: 

d=1 H M -HjX ) = ^ (16) 

Hm Hm 

For the particular case of one user, d is assumed to be zero. The advantage of 
the normalization is the finite range [0,1] the degree lies within. This degree of anonymity 
provided by the system quantifies the amount of information the system is leaking. 

There are some further observations: 

• It is always the case that 0 < d <1; 
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• d = 0 when a user appears as being the initiator originator of a message with 
probability one; 

• d =1 when all users appears as being the initiator with the same probability 

(A = w). 

In some systems there may be different distributions with a certain probability. Diaz 
et al. (2002) advised to calculate the degree of anonymity offered by the system taking 
into account all possibilities and combine the obtained degrees as follows: 

d ( 17 ) 
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where dj is the degree obtained under particular circumstances and pj the probability of 
occurrence of such circumstances. S is the number of different possibilities. 


5.1 Degree of anonymity from the point of view of an attacker on the path 
We now calculate the degree of anonymity of a user who sends a message passing 
along a path with corrupted nodes. From section 4, we know that in this case the 
probability assigned to the predecessor of the first collaborator in the path has been 
given by equation (13). 

The probabilities assigned to the corrupted nodes remain zero. Assume that the 
attacker does not have any extra information about the rest of honest nodes, then the 
probabilities assigned to those members are: 


Pi = (X = Ui )= 


N-C-l 


1-T 

W^C 


(18) 


where Ui is an element of the set consisting of any honest nodes excluding the one 
before the first collaborator. The posterior entropy H(X) of the system is 


H(X) 


(TV —C —1)(1 —T) N-C 
N-C 0g2 T^Y 
l + (A^-C-l)T N-C 

+ aTTc og2 i + (iv-c-i)r. 


(19) 


And the maximum entropy Hm, taking into account that the size of the anonymity set 
is — C, is equal to: 


H M = \og 2 (N-C). (20) 

Therefore, the degree of anonymity of the system after the attack will be: 

』 — H(X) _ (N-C- 1)(1 - T) 1 N-C 
~H^ = (N-C)\og 2 (N-C ) i0g2 Y^T 
l + (N-C-\)T N-C 

+ {N-C) log 2 {N - C) ° g2 1 + (A^ - C - 1) T' () 
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From section 4, we know 1 < C < A/ — 1, so \/N < C/N < ((N — 1) /N) ■ C = N — 1 
means there is only one honest node, i.e. the initiator itself. In this case, d = 0. Figure 4 
shows the degree of anonymity d vs the proportion of corrupted nodes with / = 4 and 
K = 5. We can see that d reduces with the increase of the proportion C/N. Figure 5 
shows the degree of anonymity d vs forward probability p{ with / = 4 and if = 5. For a 
given corrupted nodes, the degree of anonymity also increases as the forward 
probability increases. 

5.2 Degree of anonymity from the point of view of the sender 
We know that from the point of view of the sender, the path will either have corrupted 
nodes or not. So we have to take into account that the message goes a corrupted node 
or only through honest nodes. The probability p c of a path through which the message 
goes having collaborators is given by equation (11). 

And the probability p h of the message going through only honest nodes is: 


p h = I - p c = I - P{H\ + ) 


T + q-l 
^ T ^■ 


( 22 ) 


Figure 4. 

Anonymity degree from 
the point of view of an 
attacker on the path vs 
C/N 



Figure 5. 

Anonymity degree from 
the point of view of an 
attacker on the path vs pi 
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Asa result, the degree of anonymity of the system is: 


d = Pc^c ~\~ Ph^h = Pd Ph 
_ T + q-1 (l-q)(N-C-l){l-T) N-C 

^ + T{N - C)log 2 {N - C) l0g2 Y^T 
{l-q){l + {N -C-\)T) N-C 

+ T[N — C)\og 2 {N - C) ° g2 1 + {N-C-1)T' 


(23) 


If a message does not go through any collaborating nodes, the attacker will assign all 
honest senders the same probability, 九 = 1/(N — C), and the degree of anonymity will 
be rfh = 1 (the maximum degree is achieved because the attacker cannot distinguish 
the sender from the rest of honest users). 

Figure 6 shows that with the increase of the proportion of corrupted nodes, the 
degree of anonymity d is reduced. And Figure 7 shows that as the forward probability 
pi increases, the degree of anonymity d also increases. 
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5.3 Discussions 

So far, in mix-based systems such as Mixminion (Danezis et al” 2003), Onion 
Routing (Reed et al., 1998), Tor (Dingledine et al., 2004), MorphMix (Rennhard 
and Plattner, 2002) and Tarzan (Freedman and Morris, 2002), the path initiator 



C/N 
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Figure 6. 

Anonymity degree from 
the point of view of the 
sender vs C/N 
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Figure 7. 

Anonymity degree from 
the point of view of the 
sender vs pi 




















































would not reappear on the path because all nodes along the path are selected by 
the initiator. Therefore, the probability P mix (/|i/i+) of those systems under our 
threat model is 




(24) 


We assume that there are if nodes on a Crowds path, then we get the follow equations: 


P Crowds (-^1+) 
P Crowds (-^2+) 


r K 


i-l 
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i=l 


C (piq-{piq) K ^ 
'N [ l—p f q , 



(25) 

(26) 


P Crowds (,) 
P Crowds {J I -^1+ ) 


C C{p iq - ip { qf) 

N N(N-C)(l-p { q) 

1-PiQ 丨 Piq - [piq) K 
1 — ipiqf (N-C)(l^(p { q) K ) 


(27) 

(28) 


And equation (13) has given the probability PwonGoo(-^|-^i+) of WonGoo system. We 


can see that the attacker has the same confidence that the initiator is the first 
collaborator’s immediate predecessor when the anonymity path is very long with 
respect to WonGoo and Crowds systems. That’s to say: 


-^WonGoo (-^1-^1+) = P Crowds {J \ ^1+ ) 

, {N-C- \)pi (29) 

=1 - N — . 

When the path is not very long, we have the following properties: 

AvonGoo(-^|-f^l+) < ^Crowds (-^1-^1+)? ipi < 0-5) (30) 

AvonGoo(-^|-^l+) = ^Crowds (^|-^1+), {Pf = 0.5) (31) 

AvonGoo(-^|-^l+) > ^Crowds(^1-^1+) , {Pi > 0.5). (32) 

And it always holds that: 

^WonGoo(-^|-^l+) >-fmix(^|-^l+)- (33) 


Note that our threat model is not very powerful, therefore the function of layered 
encryption in WonGoo has not been shown comparing with Crowds. A detailed 
comparison among WonGoo, Crowds and mix-based systems under a more powerful 
threat model can be found in Lwetal. (2004). 


6. Conclusion 

In this paper, we have firstly quantitatively evaluated the payload of the current 
WonGoo system which is affected mainly by the number of fixed nodes and forward 










probability. Moreover, the payload is independent of the system size, showing its good 
scalability. Then we have analyzed the security properties provided by WonGoo 
system in detail. WonGoo is a tradeoff between anonymity and efficiency, providing 
variable anonymity. Thanks to random forwarding, WonGoo protects against (n — 1) 
attack. After showing how confident the collaborators can be that their immediate 
predecessor is in fact the path initiator, i.e. the probability P(I\Hi + \ we measured the 
degree of anonymity of the system based on information theory and presented a 
security comparison among WonGoo, Crowds and mix-based systems. 
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Abstract- In the past five years, hosts on Internet have 
multiplied more than five times, and along with the 
network's rapid expansion，more and more attention is paid 
to the challenging task of studying the topology 
characteristics of Internet infrastructure. Based on the 
features of Internet topology discovery and practical 
experience, we present a three-level distributed architecture 
for Internet router-level routing topology discovering 
system. We employ an integrated framework for the 
deployment of the system. We are examining, from a 
macroscopic point of view, what architecture is appropriate 
for this-like system, with an emphasis placed on the 
flexibility in practical work. The architecture enjoys the 
advantages of a clear train of thought and high 
modularization. Experiments show that this architecture has 
an instructive meaning for the development, deployment, 
and maintenance of Internet topology discovering system. 

Keywords: Internet Topology Discovery; Architecture; 
Router level; Routing. 

I. Introduction 

Recently, the scale of Internet has been expanding rapidly, 
and the number of hosts linked onto Internet has multiplied 
more than five times within five years, from 29.7 million in 
Jan. 1998， to 171.6 million in Jan. 2003 3 . Accompanying 
this rapid expansion of Internet is increasing attention paid 
to its underlying topology characteristics, which has grown 
into a challenging new research area. 

Discovering Internet routing topology is far different 
from discovering local area network topology mainly in that, 
first of all, Internet is large in size and complex in structure, 
which may require collecting routing data from multiple 
sites. Secondly, Internet has the characteristic of being 
dynamic in nature, for happenings of protocol version 
upgrading, equipment renewing and new hosts linking onto 
Internet are constant; meanwhile, the traffic on Internet may 
burst accidentally, which unlike conventional tele-traffic, 
does not fit the Poisson-based traffic model [1J . Thirdly, 
Internet itself is highly heterogeneous. Different part is 
constructed by different company or organization during 
different periods of time respectively, which carries a 
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feature of decentralized administration, and different ISPs 
may have varied operational and security policies. Internet 
routing topology discovery has to cover various parts and 
administrative domains. SNMP protocol is not applicable 
under the condition of multiple administration areas and 
access to topology information may in many cases 
encounter admission restriction. Finally, zero knowledge 
issue. Namely, so little is known about Internet topology 
that it is unlikely to make much presumption due to its 
inherent dynamic nature, which prompts researchers to turn 
to probing methods. 

Therefore, how to construct an Internet routing topology' 
discovering system with clear and highly modularized 
structure to meet the requirements of potential extension 
and easy maintenance is a problem tolerating not the least 
ignorance. To this end, combined with features of Internet 
topology discovery and practical experience, in the paper, 
we present a three-level architecture for Internet topology 
discovering system and employ an integrated framework for 
the deployment of the system. We are examining, from a 
macroscopic point of view, what architecture is appropriate 
for this-like system. The structure consists of a back-end for 
data probing or collecting, a middle section for data 
processing and a front-end for topology visualization. The 
framework also consists of three levels, with different levels 
having different functions. The architecture enjoys the 
characteristics of clear modularization, hierarchy, scalability 
and simplicity in its future extension and maintenance. We 
believe that establishing this architecture in mind will be 
helpful for understanding and shaping this-like system. 

n. Related work 

We know that a physical network may correspond to 
many logical topologies. As to the Internet, there are at least 
two logical topologies at different abstract levels, router 
level and AS (Autonomous System) level. In this section, 
we briefly review research efforts on Internet router level 
topology discovery. We will not concern other research 
aspects of topology discovery, such as Internet AS level 
topology discovery, exploring properties of Internet 
topology, Internet topology generators, and large scale 
network topology visualizing. 

On a router-level logical topology, a node stands for a 
host or a router, or stands for an IP address of hosts or one 
of the interfaces in routers. A link between two nodes 
represents that the two nodes can reach each other within 
one hop. In this respect, an early attempt aimed at gaining a 
router level map from 12 sources to 1270 reachable 
destinations with traceroute for the purpose of multicast 
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study 121 . Besides, IMP (Internet Mapping Project) 4 
conducted by B.Cheswick et al. and CAIDA's (Cooperative 
Association for Internet Data Analysis) skitters 5 are typical. 
IMP'S long-term goal is to acquire and store Internet 
topological data over a long period of time to reflect 
changes on Internet with time changing. B.Cheswick et al 
have made some achievements in topology discovery and 
adopted a tree-like structure with certain coloring for 
visualization p] CAIDA's skitters, which were put into 
operation in July 1998, utilized traceroute-like and ping-like 
mechanisms to make an active probing 151 . There are, at 
present, twenty-two monitors probing for various target sets. 
In [6], the authors developed Mercator software to discover 
network routers and links. They found that there are no 
more than 8% of Internet routers capable of source routing. 
Marginal utility of adding vantage points and destinations to 
discover the Internet backbone topology was discussed in 
[7]. They tried to reduce the number of vantage points in 
order to minimize the number of measurements needed. 
Currently, an effort aimed at directly measuring ISP 
topologies is made [8 , which make use of BGP routing 
information to direct the probing, path reduction to suppress 
redundant paths, and pair-wise alias resolution techniques. 
The database acts as the inter-process communication 
substrate. One of differences between our work and 
Rocketfuel lies in that Rocketfuel employs public traceroute 
servers as probing sites, so no deployment required. But, at 
present, there are few public traceroute servers in China, so 
we have to develop ourselves probing engines for topology 
discovery. On the other hand, developing an independent 
and easy deployed probing engine is capable of meeting the 
requirement of on-demand deployment in order to get a 
relatively complete topology graph. In [9], the authors 
presented an architecture for monitoring and visualizing 
Internet multicast statistics, named Mantra. Our architecture 
is similar in that we also use a hierarchy structure, but we 
focus on its deployment flexibility. V. Pax son's work I10)lll] 
provided design goals, constraints and their valuable 
experience in performing large-scale Internet measurement. 
In [12], the author gives a brief survey on the techniques for 
router level topology discovery. So far, there is no public 
literature explicitly states the architecture for Internet 
topology discovering systems. 

From practice, we know that, in the course of probing at 
the single site, the crossing links usually do not appear on 
the Internet router level routing topology^ 13 ]. Hence, it is 
necessary to discover the routing topology at multiple sites 
simultaneously in the same period. Therefore, we propose 
this distributed architecture and develop a corresponding 
system in order to discover the national-wide main routing 
topology (including backbones) of different ISPs, such as 
CERNET, CHINANET, etc. 

ID. A three-level structure 

In this section, we present a three-level structure for our 
distributed Internet topology discovering system. 


Internet Mapping Project http：//rcsearch.lometa.com/ches/db/ 
The C AID A Web Site, http://www.caida.org/ 


As is known, after having collected topology information 
and processed to generate graphs, results must be expressed 
in some form to exhibit the ultimate effect. Its data flow 
model description is shown as in Fig. 1. 



Intuitively, a complete Internet topology discovering 
system ought to include at least three components: data 
collecting, data processing and results presenting. However, 
the key point in this architecture is how to allocate and 
integrate different functions between the three component 
sections. Based on our practical experience and with 
enlightenment from Vern Paxson's valuable experience 
under the environment of Internet measurement 1101 [11 \ we 
employ an architecture following the basic data flow model 
shown in Fig. 1 for Internet topology discovering systems. It 
contains three level processing and two level interfaces, 
which is illustrated as in Fig. 2. 



Fig.2. A three-level structure 

The three level processing are comprised by the back-end 
for data probing, the middle section for data processing, and 
the front-end for graph visualizing (from bottom to top, 
short form as procedure 1, procedure 2 and procedure 3 in 
the remainder of this paper). The two level interfaces 
consist of data receiving and formatting interface and 
interactive display data transferring interface (from bottom 
to top, short form as interface 1 and interface 2 in the 
remainder of this paper). 
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In procedure 1 ， probing engine at each probing site is 
responsible for Internet topology routing path probing. The 
traceroute-like probing engine is in a multi-process way in a 
cluster. The raw data of collected topology information are 
required to be formatted for storage for the sake of further 
utilization and analysis in procedure 2 or future processing. 

In procedure 2, multiple processes are introduced into 
data analysis and processing. Routing paths probed are 
processed by means of such techniques as graph- 
theory-based algorithms, heuristic algorithm, graph 
stratification (resolving the approximate thickness of graph), 
data clustering, data mining, etc., and the processing results 
are transferred to procedure 3 for visualization in the form 
of graphic information file. 

In procedure 3, graph visualization may independently 
employ visualizing techniques such as drag and zoom, 
algorithm for node distribution, hierarchization, etc. to 
obtain a quasi-plane graph, combined with many other 
approaches such as statistics charts, static graphs (like RTT 
(Round Trip Time) distribution, packet loss rate 
distribution), interactive graphs, interactive topology maps 
and interactive geographical representations to exhibit the 
information of Internet topology information. 

As to the two stages data transfer in interface 1 and 
interface 2, different mechanisms are employed respectively. 
Ftp, TCP and UDP communication mechanisms are adopted 
for different types of data transfer for interface /, and TCP 
blocking I/O mechanism for interface 2, Data files or 
database is employed to function as interface between two 
levels which promises easy development and maintenance. 
It is apparent that this structure enjoys a high-degree 
modularization and clear hierarchy. 

In the course of topology discovery, data collection is 
performed at multiple sites in order to obtain a relatively 
complete topology of Internet, that is, topology information 
is collected in a distributed manner. Meanwhile, procedure 
3 adopts centralized manner. Procedure 2 is divided into 
two parts, denoted by proc2-l and proc2-2 respectively, for 
the convenience of deployment and processing. The 
function of proc2-l is mainly to convert the routing paths 
data from each probing site into a corresponding graph 
(with node table and edge table). Other functions, such as 
combining different graphs from different sites into a whole 
graph, querying IP Geo-info, alias resolution (i.e. uniting 
multiple interface's IP addresses of the same router) and the 
final graph generation, etc., are left to proc2-2. Separating 
procedure 3 from procedure 2 is for higher flexibility. For 
one thing, topology graph presentation may employ ready 
visualization software, or taking advantage of 3D 
Hyperbolic technique 1141 , GIS technique, etc. develop one's 
own visualization system to meet the specific requirement. 
Data processing may simply create topology graph files 
with corresponding formation, which will in turn be sent to 
the topology graph visualizing sub-system. For another 
thing, in actual environment, often the front-end for graph 
visualization is not located at the same site with the 
equipment in procedure 2. 

In the process of building and displaying topology graph, 
it tends to form a topology graph with specific geographical 


information to create a more luxuriant and intuitionistic 
effect in diverse forms. Accordingly, relevant geographical 
information such as geographical location of certain IP 
addresses is indispensable. We may determine the 
corresponding geographical location of a certain IP address 
by means of domain name matching or whois querying, 
etc. [15J But since some information in whois is out of date or 
incomplete, we have made revision to this portion of 
information with reference to other sources，and thus 
formed and maintain a geographical information table of IP 
addresses, denoted by IP Geo-info Logs in Fig. 2. During 
the course of building a topology graph，in order to ensure 
accurate information, IP Geo-info Logs are always first 
referred, then whois querying is made if necessary. While 
maintaining the IP Geo-info logs, large amount of IP 
addresses demand DNS (Domain Name System) queries to 
obtain corresponding domain names. Since DNS query is 
required in every round of probing, in order to promote 
query efficiency and to reduce Internet traffic, a domain 
name server is set up at the centralized processing site. 
When a DNS query is made, the local DNS sever is first 
consulted so as to greatly promote the overall system 
performance. It is highly meaningful to maintain such a 
geographical information table for, under normal 
circumstances，router IP addresses are not likely to 
frequently change. 

In the course of topology visualizing, it is very possible 
that previous data may be consulted or some particular 
information needs to be searched. So the querying request is 
transferred to procedure 2 via procedure 3's query sending 
API, and after having been processed by procedure 2, 
results are sent back to attain the goal of interactive 
information query. 

The feature of being open in the structure is that clearly 
distinctive functions are defined at different levels, and each 
individual level may adopt relevant techniques for solving 
its respective problems independently, without considering 
other levels. Functions at each level may be developed in 
parallel, which can greatly promote efficiency. 

Another benefit of adopting such a structure is the 
independent choice of required software and hardware 
environment, such as system software (OS, DBMS )， 
memory capacity, hard drive capacity, CPU type and so on, 
to attain the aim of utilizing resources to the full. 

In [13]，we have held a discussion on some key 
techniques relevant to Internet router level routing topology 
discovery. We have presently developed the corresponding 
distributed system aiming at the nation-wide Internet 
topology discovery and deployed at different sites across 
the country. In this distributed system, we employ ICMP 
packets instead of UDP packets used in [13] to trace the 
routing path, since UDP packets is prone to being blocked 
or being routed by policy-based routing. Another difference 
is this system randomly selects one IP address from each IP 
address block with /24 prefix of the certain ISP and then 
gives a randomly order for each IP address in the selected IP 
address collections. This output is taken as the final 
sequence of engine probing input. We employ the technique 
presented in [5] for alias resolution. 
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How to deploy the Internet topology discovering system 
is also an important problem. In the next section, we will 
address one of the solutions. 

IV. Integrated framework 

In this section, we present a three-level distributed 
deployment framework for our Internet router level routing 
topology discovering system, illustrated as in Fig. 3, which 
makes up of the other part of our distributed architecture. 



Kj and K2 are key centers for topology graph generating. 

Si,S2, and S3 are three sub-centers. 

Pii,Pi2"__，Pim，P2i,P22,...,P2o, ? 3 « .P31, — *Pare probing sites 
belonging lo corresponding sub、centers. 

Pij and My are connected by a file isolator which Can only 
permit delivering a data file. The probing engine is on Mij. 

Fig. 3. Three Level distributed deployment framework of 
Internet router-level topology discovering system 

Two provinces，Ki and K 2 , are designated to be key 
centers, which form the top level of the framework. Ki is 
the working center while K 2 is a backup key center out of 
disaster-tolerance consideration. When Ki is in failure, the 
system can be switched to K 2 . In the three-level structure in 
Fig. 2, procedure 3 and proc2~2, IP Geo-info logs, DNS, 
and other data and information related to proc2-2 and 
procedure 3 are on this level. 

Three provinces, Si, S 2 , and S 3 , are designated to be sub¬ 
centers, which form the middle level of the framework. In 
the three-level structure in Fig. 2, proc2-l ，the original 
routing paths data and other information related to proc2_] 
are on this level. 

The multiple probing sites are the bottom level of the 
framework. The procedure 1 in the three-level structure in 
Fig. 2 and the relevant data files are on this level. 

When collecting topology information in a decentralized 
way, there exists the problem of system security. In Fig. 3, 
the part above the dotted line forms an inner network, 
which guards the system security of this part for us. We use 
a file isolator at each probing site to stop access from 
Internet visiting the inner network. The security of the part 
under the dotted line can be guaranteed by the security 


facilities in local area network. 

The whole framework is managed and controlled under 
an integrated configuration interface, illustrated as in Fig. 4 
(screenshot). This configuration interface is only positioned 
at the key center, the top level, and at the other two lower 
levels there are only relevant daemons lying at the sites. 



Fig. 4. The configuration interface of the Internet 
router level topology discovering system 


By this interface,we may choose the probing sites for one 
round of probing cycle, create relevant configuration files, 
such as the probing sets (IP address blocks), parameters for 
probing engine, etc. and then send them to corresponding 
lower levels. When a sub-center fails, other sub-centers in 
order may take over the function of the failed center in the 
next probing cycle. That is, once there is a sub-center, say 
Si, fails, the probing sites belonging to Si can be attached to 
S2 or S3. Note that there is an inner network constructed 
with routers and dedicated lines between these sites, so the 
take-over process is very simple, just to modify the relevant 
configuration files at the bottom level sites (Py), making 
them redirecting to a sub-center in operation. Different 
types of daemons reside at the corresponding sites for 
inter-communications and controls. 

This framework is scaleable since the probing site can be 
added to or removed from the system on demand, by 
configuration. If we find a probing site gives little effective 
information (that is, the information has been covered by 
other probing sites) for a certain ISP topology, in the next 
and later of topology discovery, we will remove this site 
from the configuration for that ISP. This is also a kind of 
directed probing method. In this way we may gain a good 
view of structural characteristics of national wide Internet 
from multiple sites. 

We evaluate our distributed system by the final system 
outputs, which is a kind of functionality evaluation. We take 
three cities, Guangzhou, Yinchuan and Harbin, as probing 
sites. Due to space limitations, we cannot present more 
detail intermediate results here. Instead, we present the 
combined geographic routing topology of CERNET (China 
Education and Research NETwork) discovered by the 
system during April 14-15, 2003, as illustrated in Fig. 5. 
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Fig. 5. The geographic routing topology graph of CHRNET 
at the provincial capital level discovered from three points, 
Guangzhou, Yinchuan and Harbin. 


Comparing with the graph published by CERNET on the 
web page [16], we are conscious that the system works well 
and achieves our prospective goal (for discovering other 
triangle links, we need to deploy more probing points). 

V. Conclusions 

It is known that Internet routing topology can be applied 
in many fields, and research on this issue is vital and 
challenging out of practical need. This paper, based on 
previous experiences and efforts in Internet topology 
routing discovery, has presented a distributed architecture 
for Internet router level routing topology discovering 
system consisting of a three-level processing, two-level 
interface, and three-level deployment framework. We have 
also evaluated the system from functionality by its 
impressive output. This architecture enjoys characteristics 
of clear hierarchy, modularization, scalability, which awards 
the architecture the capacity of easy extension and 
maintenance. Experiments show that this architecture has an 
instructive meaning for the development, deployment, and 
maintenance of this kind of systems. 
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Abstract Flooding of harmful information on the Internet seriously endangers the physiological and mental 
health of teenagers. Due to the user-friendliness of the Internet as well as the difficulty in the authentication for 
the access of specific categories of information, curbing the transmission of harmful information, i.e., assuring 
the information content security (ICS), has become a reasonable yet challenging alternative. At present, there 
is an urgent need to develop a systematic model that can effectively carry out the curbing. In fact, curbing 
the transmission of harmful information by way of filtering can be modeled by access control. In the paper, 
based on the three core-elements of communication, namely, “Who communicates with whom”，“How do they 
communicate” and “What is the content of communication”，we propose a control model, called ICCON. Unlike 
the existing access control, the reference monitor (RM) of our model is placed in the transmission channel, and 
moreover, an evaluation frame is proposed, through which the effectiveness of the RM in controlling information 
transmission on the Internet can be quantitatively evaluated. 

Keywords content security, access control, quantitative evaluation 
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1 Introduction 

The rapid development of the Internet provides all the greater convenience in access to an enormous 
amount of information, meanwhile, the Internet is becoming flooded with materials involving pornogra¬ 
phy, violence and terrorism [1, 2], which not only seriously endangers the physiological and mental health 
of teenagers, but also brings about instability factors in the society, seriously endangering social security. 
Therefore, the information content security (ICS) on the Internet has attracted serious attention, in par¬ 
ticular that of governments. In UK, USA, France and other countries as well in the UN, organizations 
such as the IS PA have been founded, and documents, such as the Rating Reporting Responsibility for 
Child Pornography & Illegal Material on the Internet, the Fillon Amendment and the Internet Code of 
Practice, etc., have been issued, aiming at controlling the release and spread of the harmful information. 
In particular, to protect the juniors, the USA has passed the Communications Decency Act and the Child 
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Online Protection Act. However, these two acts are judged to be invalid by the United States Supreme 
Court, which maintains that a better way to protect the children from being affected is the adoption of 
filtering technology, rather than forbidding the harmful information being released by way of legislation. 
This point of view is being ever more widely accepted [3, 4]. 

At present, there have been raised many technological schemes for information filtering, such as the 
structural video-based filtering, the text-based filtering, and filtering based on resource address, etc. 
[5—9], which have played important roles in curbing harmful information transmission. However, it has 
been shown by practice that adopting single techniques separately is far from effective enough. So, it is 
desirable to integrate these technologies in a unified manner for practical applications. Unfortunately, 
this approach was facing great difficulties because the current technologies are essentially repertoires 
of instructions assembled in a patch-work manner which are difficult to integrate, and, by the way, the 
control performance of this approach has been so far unsatisfactory either. It is therefore more reasonable 
firstly to grasp the essential nature of harmful information dissemination and then attempt therewith 
to set up a comprehensive control model of ICS, in which the relevant technologies could be seamlessly 
combined, and the drawbacks of individual technologies could be found and eliminated, and any omission, 
if happens to be, might be made up for . 

At first sight, realization of ICS on the Internet could be reduced to the ability of controlling the 
information transmission, i.e. by blocking the undesired information and letting pass the others, so the 
access control can be employed to model the ICS. At present, there are different access control models 
for different applications. These models can be divided into two categories: traditional access control 
and modern access control [10]. The traditional access control includes the MAC, DAC and RBAC, etc. 
[11], while the modern access control includes VCONabc [12], distributed access control [13], grid access 
control [14] and access control for wireless applications [15, 16], etc. However, the currently existing 
models for access control cannot be directly applied to provide the ICS, because the information provider 
of the existing access control requires protection of information from unauthorized use, while the harmful 
information provider wants to publicize his information. The difference in purposes leads to the following 
difference between the existing access control and the access control for ICS on the Internet. 

First, the positioning of RM (reference monitor) is different. In the existing access control model, RM 
is integrated in the service side or in the client side, and is used to determine whether client have violated 
the authorization rule. While in the field of ICS, these disseminators do not actively deploy RM in their 
server or the client. Meanwhile, it is not realistic for each client to take an initiative to deploy RM to 
carb the spread of harmful information. 

Second, the mechanism of obtaining access request is different. In the existing access control, RM is 
integrated in the service side or in the client side, each access request will be actively sent by the owner 
of resource to RM for checking, and therefore, RM of the existing access control could effectively obtain 
the access request. While in the field of the ICS, the providers of harmful information will not take the 
initiative to request the RM to curb the issue of their information. 

Thirdly, in the existing access control, the subject and the object as well as their properties are 
easily obtained directly or indirectly, but it is not the case for the ICS. To protect information from 
the unauthorized use, information providers of the existing access control will require clients to provide 
information about their identities. Although, in some modern access controls on the Internet, it is possible 
that the identity of communicators is not obtained directly, techniques such as the trust management 
[17] are taken to guarantee that its identity or the corresponding property of communicator can be got 
indirectly — the identity of communicators and / or its property will be provided to the third trust party 
in the trust management. However, it is impossible that harmful information disseminators provide their 
information to the third party. Therefore, such techniques as trust management are not suitable for the 
ICS on the Internet. In addition, to escape control, harmful information disseminators or accessors may 
apply techniques such as anonymity and cryptography, which will make the identity and the information 
content more uncertain. These differences make that the existing access control is inadequate for ICS. 
So a new control model is needed. 

As for the evaluation of the control ability of RM, it is not the focus of the study in the current 
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existing access control, because: 1) every access request will be actively sent to RM for checking, that 
is, RM can effectively obtain each request; 2) the subject and the object as well as their properties 
can be obtained directly or indirectly, and whether an access request can be allowed can be accurately 
determined according to the authorization rule; 3) the disallowed access can be effectively refused. 

However, it is necessary to quantitatively evaluate the control ability of RM in the field of ICS on 
the Internet. Because: 1) information acquisition is influenced by many factors and its performance is 
not high; 2) due to the uncertainty of the identity of communicators and the content as well as their 
properties, the obtained information should be authenticated. But the complexity of the information may 
lead to low accuracy of the authentication; 3) transmission of some information should be responded, 
but in some situations its efficiency is not high. For example, it is very difficult to block the information, 
which is encapsulated by TCP and carried with the AH protocol of IPSec, by way of the based-TCP 
cheat. Therefore, we need a method to evaluate the control ability of RM in the field of ICS. 

Although significant developments have been made for the access control in theory and practice, yet 
there is no specific research on the model and the quantitative evaluation for ICS on the Internet. In the 
paper, a control model and its corresponding evaluation framework for ICS are proposed. Based on the 
three core elements of communication (“Who communicates with whom”，“How do they communicate” 
and “What is the content of communication”），we propose three sub-mode Is, namely the identity-based 
control model (ICCONi), the behavior-based control model (ICCONb) and the content-based control 
model (ICCONc). In each sub-model, control process is divided into three stages: information acquisition, 
information authentication and response. The fusion of these three sub-models constitutes the ICS model, 
called ICCON. In order to effectively evaluate the control ability of RM, we first evaluate the three stages 
of the control process, and then the fusion of evaluation results of the three stages completes the evaluation 
on the control ability. 

The paper is organized as follows. In section 2, we give an overview of our model and its evaluation. 
In section 3, we discuss in detail the three control processes of information transmission. The transition 
model of information acquisition is proposed in section 4. Section 5 is about the quantitative evaluation. 
In section 6, a detailed example is given, and finally we summarize the paper. 

2 Overview of the control model and its evaluation 

2.1 Access control for information transmission on the Internet 

2.1.1 Position of RM for the ICS 

As a core component of access control, RM stores the access control strategies and authorization rules, 
thereby preventing the unauthorized information flow from objects to subjects or the subject’s unautho¬ 
rized access to objects. There are two different types of RMs in the existing access control [18]: 1) SRM 
(server-side reference monitor), and 2) CRM (client-side reference monitor), as shown in Figures 1 and 2, 
respectively. SRM and CRM check the information flow from object to subject in the server and in the 
client, respectively. However, on the Internet, due to their strong desire to spread its information, dis¬ 
seminators of the harmful information always try to escape the third party’s control, thus it is impossible 
to deploy SRM in their server. Although the CRM is also adopted in some systems, e.g. ICRA (Internet 
content rating association), some users will not actively deploy CRM to prevent the spread of harmful 
information for some reasons. For example, a lot of WebPages are not rated by ICRA and therefore 
the effect of adopting the ICRA is far from satisfactory. So RM should be deployed on the transmission 
channel (for example, on the router connected to the Internet in primary / middle schools), we call RM of 
this deployment NRM (network-side reference monitor), as shown in Figure 3. And the control process 
for information transmission is implemented in the NRM. In the paper, we mainly discuss the NRM. 

2.1.2 Framework for ICS 

Before giving a control framework based on NRM, we first analyze the control process and the controlled 
object. 
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Figure 2 Client-side reference monitor. 


* 



Figure 3 Network-side reference monitor. 


1) Overview of the control process. Similar to SRM and CRM, NRM must acquire and authenticate 
the access, and then respond to the unreasonable information flow. So, the control process in NRM 
includes three stages: information acquisition, information authentication and response. 

Information acquisition is the premise of controlling information transmission. To acquire information, 
NRM must capture the channel used to transmit information, actively monitor and obtain the access 
information. In the authentication stages, where authentication template is a core component, NRM 
determines whether the information flow is reasonable. In this stage, the distance between the acquired 
information and the template is a key evaluation indicator. The smaller the distance, the bigger is the 
probability with which the information should be responded to. 

In the stage of response, active response and passive response are often employed. Active response 
refers to taking some approaches such as blocking, cutting or replacing to prevent the harmful information 
from spreading. Passive response refers to taking some measures, such as journaling logs to record what 
have happened. 

2) Overview of the controlled object. “What is the content of communication’’，“Who communicates 
with whom” and “How they communicate” constitute the three fundamental elements of communication. 
So three corresponding basic control methods — the content-based control, the identity-based control 
and the behavior-based control can be adopted. The three different methods are adapted to the different 
environment. For example, if the content can be effectively obtained and authenticated, then the content- 
based control can be used. But if the content is encrypted, then we cannot effectively authenticate it, 
which makes the content-based control fail. In the case, if the identity (such as the IP address) of com¬ 
municators can be obtained, then the identity-based control can be adopted. However, if disseminators 
employ the anonymity technologies to hide their identities, then we cannot obtain their real identity. In 
the situation, we should authenticate the behavior of communication, i.e. the behavior-based control 
should be employed. 

3) The control framework for ICS. Based on the control process and the controlled object discussed 
above, we propose three basic sub-mo dels for the ICS on the Internet: the content-based control, the 
identity-based control and the behavior-based control, which are respectively called ICCONc, ICCONi, 
and ICCONb, the fusion of which is called ICCON, as shown in Figure 4. 
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These three basic sub-models can be used either alone or in combination. For example, if only one of 
the three fundamental elements of communication can be effectively obtained and authenticated, then the 
only corresponding sub-model can be adopted. If more than one element can all be effectively obtained, 
then the corresponding methods can be fused together to improve the accuracy, or only one of the 
corresponding sub-mo dels is employed to improve the control efficiency. In the three sub-models, ICCONc 
deals with the specific transmitted information content, while ICCONj may analyze the information source 
or information destination, so the grain of the former is finer than that of the latter. In addition, the 
ICCONb relies on the characteristics of information transmission behavior, e.g. the characteristics of 
sending spam. So the grain of the ICCONb is coarser than that of the above two. 

2.2 Overview of the evaluation methods 

As shown in section 1, the quantitative evaluation for ICS on the Internet is of great importance. Cur¬ 
rently, the two evaluation methods are often concerned: society evaluation and technology evaluation. 
Society evaluation is used to measure the effect of assuring the ICS from the social requirement, reflecting 
the difference between the actual control result and social expectations. Technology evaluation reflects 
the difference between the actual results and the expected result under given technology. 

For example, consider a pornographic information filtering system, where the keyword filtering is 
adopted. Let the filtering keyword be “sex”. We suppose that as a result, all the text messages including 
the “sex” will be filtered. When evaluating this system, from the point of view of technology evaluation, 
the evaluation result may be excellent because all the messages including the “sex” have been filtered. 
But from the perspective of society evaluation, the result may be not so good, because the system maybe 
filter the other neutral information. 

For each kind of evaluation, two indicators are often employed: FPR (false positive rate) and FNR 
(false negative rate). FPR refers to the probability with which information flow, which is expected not to 
be responded to, is responded to in practice, and FNR refers to the probability with which information 
flow, which is expected to be responded to, is not responded to in practice. Here the “expectation” can 
be based on either society requirements or technology implementation. Thus, the evaluation indicators 
can be classified into four categories: the society-based FPR, the society-based FNR, the technology- 
based FPR, and the technology-based FNR. In the paper, we mainly discuss the technology evaluation. 
For this purpose, we first evaluate the control process, i.e. evaluate information acquisition, information 
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Figure 5 The control process of information transmission on the Internet. 

authentication and response, and finally, from the evaluation results, we compute the technology-based 
FPR and the technology-based FNR. 


3 The control process of ICS 

The control process for information transmission includes three stages: information acquisition, infor¬ 
mation authentication and response. That is, first, we should capture coarse-grained channel and then 
extract and authenticate such information as the content, the identity, and the behavior. As a result of 
authentication, we obtain some fine-grained channels. Finally, if necessary, response should be made on 
these fine-grained channels. The detailed control process is shown in Figure 5. Next, we will discuss it 
further. 

3.1 Information acquisition 

Information acquisition includes two steps: capture channel and extract the data from the captured 
channel. In many cases, extracting the data is approximately equal to parsing a protocol. Generally, the 
communication protocol can be obtained directly or indirectly, and the accuracy of parsing protocol is 
very high, thus extracting the data is relatively easy. So, here, we only discuss the channel capture. First 
we give some basic notations. 

V = {vi\i ^ 1} is a set of network nodes; 

is a nonempty subset of V, standing for information sources; 

D is a nonempty subset of V, standing for information destinations. 

In some network, such as P2P, the intersection of S and D may not be empty. Taken a network 
topology as a graph G, where a node is regarded as a vertex of G, a direct logic link between the two 
nodes as an edge of G. Let V be the set of the vertexes of G and E be the set of the edges of G, i.e. 
G = (V, E). Now the channel can be defined as follows: 

Ch : {2 S \M} x {2、}} 4 2®, is a channel function between the sources and the destinations, 
where 2 5 \{(^} and 2 D \{(p} respectively stands for the difference between 2 s , 2 D and {(^}, ^ is an empty 
set. In the definition, we define the channel as a set of edges. 

Definition 1 (Channel capture). Given graph G = (V, E 1 ), channel capture refers to obtaining the 
edge set E f C E. The complete channel capture refers to obtaining the edges set E r C. E and for any 
s C S，d e D, such that 

1. If 5 = d, then s is an isolated vertex oi G’ = G — E’ ， where, G’ = G — 五 ’ is the graph obtained by 
deleting all the edges in E' from G. 

2. If s d, there does not exist any V G V/R f such that s G and d G V\ where, is the 
connection relation of G f = G — E f ， VIB! is a quotient set of V relative to relation B!. 
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Condition 1 means that if a node is both a source node and a destination node, it will become isolated 
if all the edges of E r are deleted from G. 

Condition 2 means that if a node is neither source node nor destination node, then for any two nodes, 
one is the source and the other is the destination, if all the edges of E' are deleted, the two nodes are not 
in the same connected component. Given a graph G = (V, E) and its channel E f C E 1 , E' is a complete 
channel capture if there exists no path between the sources and the destinations in G’ = G — E’. 

Given graph G = (V, E) and its complete channel capture the E' of G is minimal if there does not 
exist other complete channel capture E" such that \E r, \ < | 五 ’|, where, | 五 ’| for the cardinality of the set 
E\ the set of all the minimum complete capture E' of G is denoted as MinE. In practice, however, it 
is hard to completely capture the channels, thus we must give the concept of the channel capture rate, 
defined as follows: 

CapCh : {2 S \{^}} x {2 d \{vj}} — [0,1]. 

Given the channel capture E' and the set of its minimum complete capture MinE, the way of computing 
channel capture rate varies with different applications. One approach is: max mee jvfj n £；{|me Pi _E’|/|me|}. 

Example 2. Given a topology of P2P network shown as Figure 6, where, s and d respectively stands 
for the source node and the destination node. We assume that we initially have no knowledge about the 
topology, so we must take some measures to find its links. If any link can be found, then we say that 
some channels are captured. In the topology, complete capture refers to finding a set of links such that 
if all the edges in the set are deleted, there is not any path from s to d. For example, {ei, e 3 , e 4 , es, e^} 
and {e 7 , e8, eg, eio, en} are complete capture. In addition, {ei, e 2 }, {e^e^} and {eio,en} are minimum 
complete capture, because if any edge in the set is deleted, s and d are connected. If e\ and are found in 
practice, according to the definition above, then the complete capture rate is max{|{ei, e 3 }fl{ei,e 2 }|/ 2 , 
|{ei ， e 3 }fl{e 7 ,eg}|/2, |{ei,e 3 }fl{eio,en}|/2}=l/2. 

Generally, the lack of the global information in some applications such as P2P network makes it very 
difficult to obtain its network topology, which makes capture channel completely, and also leads to the 
difficulty of computing the channel capture rate. 

Example 3. Consider a network, where, each node is both the source node and the destination node. 
There are totally N links in the network. And if a capture is carried out, then m links can be found 
[m ( N). Capture strategy is as follows: each link is randomly found with the same probability, and the 
capture process is memory less, i.e. if some links are found in a capture and then in the follow up process 
the same link might be captured again. After several times of repeated capture, can the link capture rate 
be greater than p(0 《 p ( 1)? The problem can be transformed into the following question. 

There are N same white balls in an opaque black box, at first m {m ( N) balls are randomly picked 
out, colored in black and then put back into the box, then m balls are randomly picked out from the box 
again (black balls might be included in the m balls), colored in black and then put back into the box, 
such an action is repeated again and again. After how many times of coloring, the probability of the 
black ball in the box be greater than p? 


h Vo 



Figure 6 Example of channel capture. 
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We can analyze the problem as follows: each time the color probability of each ball is m/AT, the non¬ 
color probability is 1 — m/AT, thus after r times’ coloring, the non-color probability is (1 — m/N) r ^ so after 
r times’ coloring, the color probability is 1 — (1 — m/N 丫 , because the color probability is required to be 
greater than p, i.e. 1 — (1 — m/N) r > p. Therefore, after n times repetition, the probability 

of black ball in the box is greater than p, where, [] is a ceiling function. So, after i n (jv-^m)-in n times 
of capture, the channel capture probability is greater than p. For the further discussion about channel 
capture, please refer to [19]. 

3.2 Information authentication 

After capturing the channel, we must parse the captured data, extract and authenticate the information — 
the content of communication, the identity of communicators, and the behavior of communication. Thus 
the authentication can be classified into 3 categories: the content-based authentication (or, written as the 
content authentication), the identity-based authentication (or, written as the identity authentication), 
and the behavior-based authentication (or, written as the behavior authentication). 

3.2.1 Content authentication 

The content-based control, whose grain is the finest, requires that the content should be authenticated. 
The one of core elements for content authentication is the harmful content template. When authenticating 
the content, we compare the exacted content with the template and then compute their distance. The 
closer the distance, the more likely the content matches the template, thus the more harmful the content 
should be. 

Definition 4 (Content authentication). The content authentication model is a tuple (C’TEMPd 
Dcm^ Authc) where 

1. C is a set of contents captured between communicators; 

2. TEMPc is a harmful content template; 

3. ^ is a set of non-negative real numbers; 

4. Dcm •• Cx {TEMPc} is a distance function, which is used to measure the distance between the 
content c and the template TEMPc. The detailed calculation method for distance varies with different 
applications. The smaller Dcm (c, TEMPc), the more harmful the content c should be. 

5. Authc ' 、 — [0,1], is a content authentication function, which is employed to compute the probabil¬ 
ity of the response to contents. The input of the function is the distance between the extracted content 
and the content template. The greater Authc-, the greater is the probability with which a response should 
be made. 

When the distance between the content and the content template is zero (when the distance is smaller 
than a predefined threshold value in a practical application), the content is responded to with probability 

1. And when the distance is infinite (when the distance is greater than a predefined threshold value in 
a practical application), the content is responded to with probability 0. Obviously, the function Authc 
has the following properties: 

1. monotonic decreasing; 

2. Authc{0)=l] 

3. lim^oo Authc(0 = 0- 

Example 5. The keywords filtering model for a pornography system: 
is a set of texts to be filtered; 
keyword c is a set of pornographic keywords; 

Dcm ' Texts x {keywordc] [0, oo), is a distance function, defined as follows: 



0 if 彐 x G keyword c .x G sub string (t) 
1 if Mx G keyword c .x ♦ substring(t) 


where, substring(t) stands for the set of all the substrings of text t. 
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The authentication function is 

— 

The distance function and the authentication function show that: if any pornographic keyword appears 
in a text, then Authc^c) is equal to 1, i.e. this text should be responded to with probability 1. If all 
the keywords do not appear in a text, then Authd) is zero, i.e. the text is harmless and should not be 
responded to. 

Example 6. The ICRA 1 ^ system can be modeled as 
WPs is a, set of web pages; 

L is a set of security levels; 

C L x L is a dominance relationship on L; 

TEMP C C L is a content template, standing for the set of the maximal accessible elements of security 
levels; 

Label : WPs — > L U p is a security label function, where, (p ^ WPs. If the label of a web page is (p, 
then it means that the page is not rated (Here, we assume that every web page is tagged by one label at 
most); 

Dqm - WPsx {TEMP C } [0, oo), is a distance function between a web page and the content template, 
defined as follows: 

! 0, if 彐 : c G TEMP c .x>zLabel(wp ), 

0.5, if Label= (p, 

1, otherwise. 

Given the function Dcm(^P^ TEMP c ) above, the authentication function can be defined as follows: 

[1, if = 0, 

Authei^c) = \ 0, if = 1, 

I 1 or 0, otherwise. 

The distance function and the authentication function mean that: if the security level of a web page 
to be accessed dominates that of the permitted, the access should be blocked with probability 1, if the 
permitted security level dominates the security level of a web page to be accessed, the access should be 
allowed. And if the web page is not rated, then the access can either be responded to or not (depending 
on different policies). 

3.2.2 Identity authentication 

Although the grain of content authentication is the finest, yet if the content is encrypted, the distance 
between the content and the content template can not be calculated, which makes the content-based 
authentication fail. Therefore, other authentication methods should be considered. If the identity of the 
communicator, such as URL address, an IP address 2 ) or the other labels, can be obtained, then we can 
adopt identity-based authentication to prevent the unreasonable information flow. 

Similar to the content authentication, the core of identity authentication is the identity template. When 
identity authentication is adopted, we must compute the distance between the captured identity and the 
identity template. And the smaller the distance, the more likely the identity matches the template, thus 
the more harmful the information disseminated by this identity should be. 

Definition 7 (Identity authentication). Identity authentication model is a tuple (I,TEMPi,$, Dim, 
Authi), where 

1) http: // www.fosi.org/icra/ 

2) It must point out that the IP address in P2P network should not be regarded as the identity, because blocking a 
single IP in P2P network only leads to trivial effect for preventing the harmful information from spread. 
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1. / is a set of identities. 

2. TEMPi is an identity template. 

3. ^ is a set of non-negative real number. 

4. Djm - I x {TEMPj} ^ is a measurement distance between an identity and the identity template. 
Its calculation method varies with different applications. The smaller Djm(^TEMPj), the more likely 
that z is a harmful information disseminator. 

5. Authi : ^ —>• [0,1] is an identity authentication function, which is adopted to compute the probability 
of the response to the identity. The input of authentication function is the distance between the identity 
of communicators and the identity template. The greater the value of the Authi, the more likely the 
identity matches the identity template, and the greater is the probability with which a response should 
be made. 

When the distance between an identity and its template is zero (when the distance is less than a 
threshold value in a practical application), this identity should be responded to with probability 1. When 
the distance is infinite (when the distance is greater than a predefined threshold value in a practical 
application), the content disseminated by this identity should be responded to with probability 0. 

Example 8. Identity authentication model of a control system for pornographic websites. 
t/i^Lbiack is a set of URL blacklists; 

URL^ite is a set of URL whitelists, and intersection between U -R-^biack and C/i?L w hit e is empty; 

T EM Purl = U black U URL^ae is an identity template; 

Dim - URL x {T EM Purl} —^ [0, oo) is a distance function, which is defined as follows: 

f 0, if url G URL h i ack , 

= D(uvI : TEMPurl) = l 10, if url G URLa te ， 

I 5, otherwise. 

Given the distance function, we define the authentication function as follows: 

[1, if ^ = 0, 

Authi^i) = \ 0, if ^ = 10, 

[ 0.001, otherwise. 

The distance function and the identity authentication function means: if a url is an element of blacklists, 
this url should be responded to with probability 1. When a url is an element of whitelists, it should be 
responded to with probability 0. When a url belongs to neither U black nor U the method to 
deal with the access to the url varies with different policies. For example, the access is responded to with 
probability 0.001. 

The identity-based authentication requires the true identity of communicator to be obtained. In some 
cases, we hardly obtain the true identity. For example, the disseminator adopts the anonymity techniques, 
which make the distance between the identity and identity template not effectively computed. This causes 
the authentication based on the identity fail. 

3.2.3 Behavior authentication 

Due to the existence of content authentication and identity authentication, if the disseminators of harmful 
information do not hide the content and its identity by taking some techniques such as cryptography and 
anonymity, then it is very difficult for them to spread information. So, they will encrypt the contents 
and hide their identities. In the case, they must use some special automatic tools. Because if not, the 
effects of spreading are not obvious as the scope of harmful information disseminated is very limited. 
Since some special tools are used, some special behavior characteristics must be appeared. Thus, we can 
adopt these special behavior characteristics to prevent the harmful information from spread. 

For example, when MixMaster is adopted to disseminate harmful information, the only way to prevent 
the harmful information is to authenticate its behavior. Because when the MixMaster is employed, 
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both senders and recipients are anonymous, and the content of the email text is encrypted, content 
authentication and identity authentication will fail. But some special behavior characteristics will be 
shown. Thus the behavior-based authentication can be considered under this circumstance. 

Similar to the content authentication and the identity authentication, one of the core components of 
behavior authentication is a harmful behavior template. When behavior authentication is adopted, we 
should compute the distance between a harmful behavior template and the actual behavior. The smaller 
the distance, the more likely is the behavior to be malicious. 

Definition 9 (Behavior authentication). Behavior authentication model is a tuple (B^TEMPb^, Dbm, 
AutJiB), where: 

1. 5 is a set of behaviors; 

2. TEMPb is a harmful behavior template; 

3. ^ is set of non-negative real numbers; 

4. Dbm •• B x {TEMPb} — > ^ is a distance function between the actual behavior and the behavior 
template. The method of calculating the distance calculation varies with different applications. The 
smaller the Db(P ， TEMPb\ the more likely is the behavior to be malicious; 

5. Auths * ^ ^ [0,1] is a behavior authentication function, which is employed to compute the 
probability of the response to the behavior. The input of the function is the distance between the 
behavior of communicators and the behavior template. 

The greater the probability, the more response should be made. If the distance is zero (when the 
distance is smaller than a predefined threshold value in a practical application), the behavior should 
be responded to with probability 1. When the distance is infinite (when the distance is greater than a 
predefined threshold in a practical application), the behavior should be responded to with probability 0. 

Unlike the content and the identity, the description of the behavior is complex somewhat. Generally, 
the behavior is a set of actions or sequences of actions. In many situations, a single action is not harmful, 
but a sequence of actions becomes harmful. In addition, it is also possible that if some characteristics of 
some actions in a sequence of actions meet certain condition, the sequence is not harmful, and if not, it 
is harmful. So, in order to authenticate it, we must describe the behavior. Up to date, many methods 
can be adopted to describe the behavior, such as process algebra, finite state automata, and Petri net, 
etc. We view the behavior of one system as the system performs an action from one state, then gets into 
another state, again, carries out another action, and gets into another state. Such the action is repeated 
again and again until stop. So we can employ the finite state automata to model the behavior of a system. 

Definition 10 (Finite state automata (FSA)). An FSA M is a tuple M = (5" ， A, s。)，where 

1. 5 is a set of states; 

2. ^4 is a set of actions; 

3. transition relation; 

4. so is an initial state. 

Definition 11 (FSA with the attributions (FSAA)). An FSAA M is a tuple M = (5, A, S, ATTR, AR ，"， 
/, s 0 ), where 

1. A, 5 and so are the same as Definition 10; 

2. ATTR is a set of the attributes of actions; 

3. g : A ^ 2 attr is a function, and refers to a set of attributions of an action; 

4. AR 3 ^ is the range of ATTR; 

5. f : 6 x ATTR AR^ is a function, by which the value of every action’s attribution during every 
transition can be computed. 

Function g has formulated a set of concerned attributions of each action and / has stipulated the 
change of attribution’s value of actions while a transition happens. Informally, an FSAA M is an FSA 
except that every action has one or more attributions and the value of its attributions changes with the 
occurrence of transitions. 

3) Here, the AR includes the different type. 
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A path of M is a sequence of the form s 0 air] aija ttr ltl • • - ,attr 2 ,i • • • VcL 2 ,o,ttr 2 ,j • • -j SUCll 

that 

1 . so is an initial state; 

2 . each ai(Sj) denotes an action (a state); 

3. (&, a^+i, Si+i) G 5 for all non-final i (i ^ 0); 

4. rj a ^attr iy k ^ d{ a i) i s one attribution of the concerned action a^, where 0 ^ A: ^ \g{ai)\. 

When an action has only one attribution, we simplify rj ai ,attr iik as rj ai . 

Definition 12 (String projection). Let str be a string in an alphabet E, the string projection of str* in 
A C is the string (written as str by removing all letters which are not in A. It can be formally 
defined as 

I e, if str = e, 

str Ta= \ t Ta, if str = ta and a ^ E, 

I (t if str = ta and a G S, 

where e denotes an empty string. 

Definition 13 (Behavior). If the union of states set 5， action set A, and attribution set ATTR of an 
FSAA M is regarded as an alphabet, the path of M as a string, then the behavior n of the path is the 
projection in the A and ATTR, i.e. 7 r = path ^auattr, the set of behaviors of all the paths of M is 
called the behavior of M. 

Given the behavior 丌么 and 7 Tj, the distance between them can be computed according to the distance 
between their actions or between the attributions of their actions. The detailed method to compute the 
distance varies with different applications. 

Example 14. Consider a path path 。= 52 ^ 37 ^ 3 S 3 a 4 r/ a 4 54 , where and rj ai (i = 

1, … ， 4) denote a state, an action and an attribution, respectively, then the behavior of the path is 

兀 0 = pCitho "f AuATTR = ^l^]ai^ j 2^]a2^SVcL3^'^Vo,4 • 

Example 15. Behavior authentication model for spam based on the DHA (directory harvest attack) 

[20]， 

First, we simply introduce the basic SMTP (simple mail transport protocol). In the basic SMTP, first ， 
the sender sends out the command HELO to verify whether the recipient has got into initial state. If 
necessary, then the sender and the recipient run the commands MAIL and RCPT in turn to impart each 
other’s identity. Finally, the sender writes the data (a mail) by the command DATA, and the data is 
ended with (CR) (LF) .(CR) (LF) . After the commands MAIL and RCPT, the RSET can be carried out 
to reset the system. In addition, while executing any command except for DATA, the sender can perform 
the command QUIT to end sending the mail. The state transition graph for the basic SMTP is shown 
in Figure 7. 


RSET 



Figure 7 State transition model of the basic SMTP. 
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A DHA is a technique used by spammers in an attempt to find valid e-mail addresses at a domain by 
using brute force. The attack is usually carried out by way of a standard dictionary attack. The success 
of a DHA relies on the recipient e-mail server rejecting e-mail sent to invalid recipient e-mail addresses 
during the SMTP session. Due to a standard dictionary attack, thus a large number of email addresses 
guessed by spammers are invalid, so the recipient e-mail server can compute the rate of invalid addresses. 
When the rate is greater than a given threshold value, it is possible that the sender is a spammer. Thus, 
its behavior authentication model is modeled as follows: 

A = {HELO, MAIL, RCPT}^ is a set of commands; 

ATTR = {falseAddratio}^ is a set of attributions, where falseAddratio is the rate of invalid email 
addresses; 

An attribution function about A is defined as 

f falseAddratio, if x = RCPT, 

9{X)= U Otherwise, 

i.e. only attribution of the command RCPT is falseAddratio, and the attribution of the other commands 
is trivial. Let 

tempuockb = { H ELO. MAI L. RC PT. f alseAddratioT}^ 

be a harmful behavior template, where falseAddratio stands for the rate with which the invalid email 
addresses can be tolerated. 

Given a real behavior: 


tta = H ELO a - ^ La - RC PT a - fal seAddratioA .DAT A a - Q U IT a , 


where f alseAddratio a is the rate of the invalid email addresses in practice, the distance between 
tempbiockb and 7ta can be defined as follows: 


Dbm (兀 A，tempblockb)= 


0, if false Addr atioT — falseAddratio a ^ 0, 
f als e Addr atio a — f alse Addr atioT, otherwise. 


Given the distance function, the authentication function is defined as follows: 


AuthsiX) = 



if ^ = 0, 
otherswise. 


The authentication function denotes that if false Addr atioT is less than or equal to f al s e Addr atio a , 
then the behavior is harmful and will be responded with probability 1. 

3.3 Response 

If information is authenticated to be unreasonable information, then we must respond to it. The re¬ 
sponded object includes the content, the identity and the behavior. Response can be classified into two 
categories: the active response and the passive response. And the position in which the response functions 
is the fine-grained channel obtained after the authentication, shown in Figure 5. The response to the 
harmful information on the Internet is difficult. Even for the passive response, the enormous numbers 
of access make journaling all the logs infeasible. Thus, we need a parameter to model the efficiency of 
response, denoted as BlockCh. 


4 State transition model of information acquisition 

Above, we discuss the three different methods of authentication: the content-based authentication, the 
identity-based authentication and the behavior-based authentication. However, all the methods can be 

4) For simplicity, we use the period as a split. 
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adopted in any situation. For example, assumed that the content is encrypted, the identity is anonymous 
and the behavior cannot be obtained, then all the three methods of authentication will not work, the 
three control models fail. In the case, we must take measures to acquire the content, the identity or the 
behavior. This relates to another problem: the state transition model of information acquisition. 

On the Internet, information is transferred through the channels, and some special characteristics will 
be appeared during the transmission in the channel. Therefore, the tuple (c/i, z, 6, c) can be adopted to 
model the state of information acquisition, where c/i, z, b and c represent the channel, the identity, the 
behavior and the content, respectively. Possibly, it is difficult to acquire all the four elements: ch，i, b 
and c. For example, it is very hard to capture the channel in some P2P networks. If we use ch and 
ch to denote that the communication channel is captured or not, respectively, i and i to denote that 
the identity of communicator is acquired or not, respectively, b and b to denote that the communication 
behavior are obtained or not, respectively, and c and c to denote that the content are obtained or not, 
respectively; then there are 16 states: (ch, 6, c), (ch, z, 6, c), (c/i, i, 6, c), (c/i, z, 6, c), (ch, z, 6, c), (ch, z, 5, c), 
(ch, z, 6, c), (c/i, z, b, c), (ch, i, b, c), (ch, 6, c), (ch, z, 6, c), (ch,i，i,d)，(ch, 6, c), (ch,i,b,d), (ch, z, 6, c) and 
(ch, z, 6, c). 

Let MODE be the set of these 16 states. In all these states except (c/i, z, 6, c), it is possible that the 
channel cannot be captured, or the content, the identity and the behavior cannot be obtained. To control 
information flow accurately, some measures should be taken to make the system transit from the other 
states (especially, the state c)) to (ch, 6, c). This is concerned with the state transition model. 

Definition 16 (State transition model of information acquisition). The state transition model of infor¬ 
mation acquisition is tuple M = (MODE’TR), where 

1. MODE is a set of states; 

2. TR:MODExMODE^[0,1], is a state transition function, which denotes the transition probability 
between two states. The state transition in information acquisition can be shown in Figure 8 5 ). 

The letter on the arc in Figure 8 refers to the transition probability (i.e. the ability of information 
acquisition), for example, a, c, e and k reflect the ability of acquiring the indentity, and m, n, o, p, q, r, 
5, and t reflect the ability of capturing the channel. In addition, Figure 8 shows that in order to prevent 
the harmful information from spreading, the first thing we must do is to capture the channel. 

In some actual applications, on the other hand, it is possible that many states can be reached from 
one state. For example, in state (c/i, c), if we can both decrypt the content and get its behavior, 

then (c/i, z, 6, c) and (ch, z, 6, c) can be reached from (c/i, i, 5, c). However, possibly, the cost of decrypting 
the content is much greater than that of acquiring the behavior. In this case, we will adopt the way of 
acquiring the behavior. This relates to the policy of the transition. 

Definition 17 (Transition policy, transition ability). Let MODE be a set of states, then transition 
policy and transition ability can be defined as follows: 



5) Here, we only show the basic transitions in Figure 8 for simplicity. In fact, there are some transitions, for example, 
there is a transition from (ch, i, b, c) to (ch, i, b, c). However, these transitions can be derived from the basic transitions. 
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TranJPolicy.. MODExMODE^[0,l] is a transition policy function, representing the probability of 
subjective selection of transition from a state to another. 

Tran-Ability.. MODExMODE^[0,1] is a transition ability function, representing the objective transi¬ 
tion ability from one state to another. 

5 Evaluation on ICS 

Compared with the existing access control, it is difficult to capture and authenticate information for 
ICS on the Internet. Meanwhile, the efficiency of responding to unreasonable information flow is not 
high. So a quantitative evaluation of control ability for ICS is of great importance. However, the big 
gap between the existing techniques and social requirements leads to two types of evaluation methods: 
society evaluation and technology evaluation. The often concerned indicators in each evaluation method 
are FPR (false positive rate) and FNR (false negative rate). Thus 4 indicators are often employed to 
quantitatively evaluate ICS: the society-based FPR, the society-based FNR, the technology-based FPR, 
and the technology-based FNR. Now we adopt an example to illustrate 4 indicators. 

Example 18. Consider a pornographic information filtering system, in which the only keyword in 
its filtering template is set as “oral sex”，and suppose that the filtered objects are 1000 pieces of text 
messages, where, there are 100 pieces of pornographic information and 900 pieces of non-pornographic 
information, 300 pieces of them include keyword “oral sex” while 700 pieces of them do not contain the 
keyword. As a result of filtering, 310 pieces of information are blocked, 275 pieces of which include the 
keyword “oral sex” and the other 35 pieces of which do not include the keyword. Among these 275 
pieces filtered, 75 pieces are pornographic, the other 200 pieces are non-pornographic. Among the 35 
pieces filtered, 10 pieces are pornographic, 25 pieces are non-pornographic. Thus a total of 75+10=85 
pieces of pornographic information are filtered, the society-based FNR is 1—(75+10)/100=0.15 and the 
society-based FPR evaluation is 225/900=0.25. As for the technology evaluation, 275 pieces of the 300 
pieces of message which contain the keyword “oral sex” are filtered, thus the technology-based FNR is 
1—275/300^0.083. 35 pieces of the 700 pieces which include the keyword “oral sex” are filtered, thus the 
technology-based FPR is 35/700=0.05. 

In Example 18, if the only keyword is set as “sex”，then the society-based FPR will increase, while both 
the technology-based FPR and the technology-based FNR might remain unchanged. Thus, the accuracy 
of the template has an important influence on the society evaluation. So in order to accurately prevent 
the harmful information, it is necessary to set the template accurately. 

To protect ICS, three stages are needed: information acquisition, information authentication and 
response, thus the technology evaluation also includes evaluation on information acquisition, information 
authentication and response. Information acquisition includes two steps: capturing the channel and 
extracting the information. The rate of capturing the channel can be computed by the method mentioned 
in subsection 3.1. In addition, extracting the information from the captured channel is approximately 
equal to parsing the protocol, so the accuracy of extracting the information is high. Another, since 
the response process is relatively simple, its evaluation is relatively easy. So, we in detail discuss the 
evaluation on the authentication in subsection 5.1 and then in subsection 5.2 the overall evaluation on 
the control process is analyzed. 

5.1 Authentication ability for the different states 

In Figure 8, we give the state transition model of information acquisition. In some states, the three kinds 
of authentication can be used solely or combined together. For example, in the state (ch ， i ， b ， c), it is 
possible that the identity authentication can be adopted alone, and also it is possible that the content 
authentication can be adopted firstly, followed by the identity authentication and finally the behavior 
authentication. Let x be a state, then in the state x if different control policies adopted, both the 
false positive rate of the authentication (the rate with which harmless information is authenticated to be 
harmful, denoted as FPR^) and the false negative rate of the authentication (the rate with which harmful 
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information is authenticated to be harmless, denoted as FNR^) may be different. Let FPR^ al FPRf a and 
FPR^ a be the false positive rate of the content-based authentication, the identity-based authentication 
and the behavior-based authentication in the state x, respectively. And let FNR^ FNRf a and FNR^ a 
be the false negative rate of the content-based authentication, the identity-based authentication and 
the behavior-based authentication in state respectively. Intuitively, FPR^ a (FPRf a , FPR^ a ) refers 
to the probability with which the harmless content (the identity with which the harmless information 
is disseminated, the harmless behavior) is authenticated to be harmful, i.e. the probability with which 
the content (the identity, the behavior) that does not “match” its template is authenticated to match its 
template. Similarly, FNR^ a (FNRf a , FNRf a ) refers to the probability with which the harmful content 
(the identity with which the harmful information is disseminated, the harmful behavior) is authenticated 
to be harmless, i.e. the probability with which the content (the identity, the behavior) that “matches” 
its template is authenticated not to match its template. Now, we can define the false negative rate and 
the false positive rate of the authentication in a state. 

Definition 19 (FNR for the authentication in a state, FPR for the authentication in a state). Suppose 
that FPR^ a , FPRf a ， FPR ^ a , FNR^ a , FNRf a and FNR^ a are described as above, then FNR for the 
authentication in state x (FNR^) is a function about FNR^ a1 FNRf a and FNR ^ a : 

FiV^ ： [0,l]x[0,l]x[0,l]^[0,l], 

where, the input of the function is the parameters: FNR^ al FNRf a and FNR^ a ; 

FPR for the authentication in state x (FPR^) is a function about FPR^ a , FPRf a and FPRf a : 

FP^:[0,l]x[0,l]x[0,l]^[0,l], 

where, the input of the function is the parameters: FPR^ FPRf a and FPRf a . 

The methods of computing FNR^ and FPR^ vary with the authentication models used and different 
authentication policies. 

Example 20. In state (c/i, i, 6, c), although the three authentication models can be adopted, we assume 
that the only content-based authentication is used to improve the efficiency in practice, then 

FPR-(FPR x ca ,FPR^ a ,FPR x ba ) = FPR:' 

FNR ： (FNR- ca ,FNR^FNR x ba ) = FNR:. 

Example 21. In Example 20, we suppose the authentication policy is that the content authentication, 
the identity authentication and the behavior authentication are employed in sequence, and any result of 
authentication are “blocked”，then the access should be blocked. If all the results of authentication are 
“allowed” then the access should be allowed. In the case, FNR^ and FPR^ can be calculated as follows: 

FNRl{FNRZ a ,FNR^FNRl a ) = FNR x y , 

yE.{ca,ia,ba} 

FPR x a (FPR x ca ,FPR^FPR x ba ) = FPR x ca + (1 — FPR^ ca )FPR^ a 

+ (1 - FP!T ca )(l- FPRl a )FPRl a . 

5.2 Evaluation on ICS 

The evaluation on the authentication is discussed in the subsection above, now we analyze how to quan¬ 
titatively evaluate the overall control process. Control ability for information content security is the 
comprehensive reflection of information acquisition ability, information authentication ability and re¬ 
sponse ability. If the three abilities are determined, the control ability can thus be evaluated. 

Suppose that there is no transition in Figure 8, then in the situation let MSelfFNR x be the false 
negative rate, MSelfFNR x be the false positive rate and CapCh x be complete channel capture rate in 
state x, then 

MSelfFNR x = 1 - CapCh x x (1 - FNR^) x BlockCh x , 
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MSelfFPR x = CapCh x x FPR x a x BlockCh x . 

Now suppose that the state transition model is as shown in Figure 8, where, there exist transitions 
from one state to another. In the situation, let FNR X be the false negative rate, FNR X be the false 
positive rate in state x, then 

FNR X = Tran_policy(x,x) x MSelfFNR x 

+ Tranjability(x^s) x Tranjpolicy(x, s) x FNR S , 

sesucc(x) 

FPR X = Tranjpolicy(x,x) x MSelfFPR x 

+ Tran_abUity[x, s) x Tranjpolicy(x, s) x FPR S , 

sesucc(x) 

where, Tran—ability and Tran-policy are defined in Definition 17, SU CC(x) for the direct successive 
state of x. 

In the above formulation, the value of each function or each parameter comes from the external 
interface. For example, the value of FPR^ a may come from actual experiments or the statistical data in 
an actual engineering. In this way, we can quantitatively evaluate the control ability. 


6 Example 


Consider an e-mail filtering system, which is deployed in the recipient’s SMTP server. Due to the 
deployment on the server, so capturing and responding to the information is easy. So we mainly investigate 
the authentication. Suppose that the content, the identity and the behavior all are recognizable, i.e. the 
system is in state (ch,i ， b ， d) oi Figure 8. Thus the ICCONi, the ICCONb and the ICCONc can be 
adopted. In ICCONc, keyword vectors are employed to authenticate the content of the mail, while in 
ICCONi, black email list is used. When the behavior authentication is considered, two commands are 
investigated: MAIL and RCPT. And two attributions are studies for the two commands: ip2domain 
for MAIL^ falseAddratio for RCPT, where, falseAddratio is the same as that in Example 15, and 
ip2domain is a variation, indicating whether the real IP address of the claimed SMTP server coincides 
with its parsed IP address. If they are coincident, then ip2domain = 1, otherwise ip2domain = 0. 
ip2domain can be adopted, because, generally, the relation between the domain of a SMTP server and its 
IP address is relatively fixed. But it is possible that spammers will forge one or more domains to cheat 
the receiver. In the situation, the IP mapped to the forged domain will not coincide with that of the 
actual domain. So variation ip2domain can be used to authenticate the spam. In addition, we suppose 
that the adopted control policy is the same as Example 21. Now we can give the corresponding models. 

(1) The ICCONc model. Tempkeyword is a set of pornography keyword vectors and the corresponding 
weights. For each vector T = (Ti, T 2 ,..., T n ), there exists a corresponding vector t = (ti ， 亡 2 , •. • ，亡 n )， 
where Ti is the ith keyword, ti is the weight of the ith keyword, and 1 ^ i ^ n. 

T ext is a set of the email text objects, represented by an n-dimensional keyword vector V = (14, V 2 ,..., 
V n ), and the corresponding weight vector is v = (i»i, t ； 2 ,. • •, v n ). 

0 is a threshold value. 

Dcm .. Text x {Tempkeyword} ^ [0, 00 ) is a cosine distance function, defined as follows: 


£,c = DcM(v,t) 


cos(v,t) = 丫 /Vi.til' 


二叫•二 A . 


Authc is an authentication function: 


Authc{ic )= 


undefined, 


if < 0, 
otherwise. 
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The authentication function means that if the distance between the template and the email text is 
less than or equal to a predetermined threshold value 也 then the mail should be responded to with 
probability 1, otherwise, the authentication function is undefined. In this case, according to our control 
policy, ICCONi should be employed. 

(2) The ICCONi model. TEMP ema [\ is an identity template, which is a set of email blacklists; Dim - 
EMAIL a ^r x {TEMP ema i\} —> [0,oo) is a distance function, which can be defined as 


Cl = D IM (emailaddr,TEMP ema ii)= 



if emailaddr G TEMP ema i\^ 
otherwise. 


The authentication function is as follows: 


Authi^i )= 


undefined, 


if ^ = 0, 
otherwise. 


The distance function Dim and the authentication function Authi mean that if the email address of 
senders belongs to the set of blacklists, then the probability of responding to this mail is 1. Otherwise, 
the authentication function is undefined. In this case, according to our control policy, ICCONb should 
be employed. 

(3) The ICCONb model. Let A = {HELO^MAIL^RCPT} be the set of actions of the behavior 
template, and ATTR = {ip2domain : f alseAddratio} be the set of the corresponding attributes of these 
actions. g{x) is the attribution function, defined as 

i f alse Addr atio, ii x = RCPT, 
ip2domain, if x = MAIL, 

(/?, otherwise. 

Namely, ip2 domain is the attribute of action MAIL and false Addr atio is the attribute of action RCPT. 
The behavior template is tempbehavior = {HELO.MAlL.ip2domain.RCPT. f alseAddratio}. 

If the actual behavior of a sender is trace a = HELOa.MAILa domain a . RC PT a . f cd s eAddr atio a , 

the distance between behavior trace a and behavior template tempbiockb can be defined as 

{ 0, if ip2domairiA 7^ ip2domain or 
f alseAddratio^ f alseAddratio, 

1, otherwise. 


Given the distance function, we can define its corresponding authentication function: 


AuthB^b )= 



if £,b = 0, 
if = 1. 


The distance function and the authentication function show that if the real IP of the claimed SMTP 
domain does not coincide with its parsed IP, or the rate of invalid addresses is higher than that with 
which the invalid addresses can be tolerated, then the sending process should be responded to with 
probability 1. Otherwise, the sending process is allowed 

As for the quantitative evaluation, the filtering system is deployed on the server, so the rate of both 
capturing the channel and blocking the harmful email is higher. Therefore, when analyzing the control 
ability, we just need to discuss FNR and FPR of the content-based authentication, the identity-based 
authentication, the behavior-based authentication, which can be achieved from a practical statistic or 
experiments. So, we can quantitatively evaluate this e-mail filtering system by way of Example 21. 
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7 Conclusions 

Although ICS on the Internet has received the wide attention, few researches focus on the control model 
and its evaluation. In this paper, we propose the control model (ICCON) for the ICS on the Internet 
and the corresponding evaluation frame, which consists of three sub-models: ICCONc, ICCONi and 
ICCONb. The sub-mo dels respectively focus on “What is the content of the communication”，“Who is 
communicating with whom” and “How do they communicate”，which covers all the methods of assuring 
the ICS. As for evaluation, we distinguish society evaluation from technology evaluation. Particularly, 
in order to measure the ICS from the point of technology evaluation, the evaluation process is classified 
into evaluation on information acquisition, evaluation on information authentication and evaluation on 
respondence, the fusion of which constitutes the evaluation of the overall control ability. The evaluation 
interface of each control process makes the quantitative evaluation of each sub-mo del, and hence that of 
the general model feasible. 
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Abstract 

The identification of network applications is of 
fundamental important to numerous network activities. 
Unfortunately, traditional port-based classification and 
packet payload-based analysis exhibit a number of 
shortfalls. A promising alternative is to use Machine 
Learning (ML) techniques and identify network applications 
based on per-flow features. Since a lot of flow features can 
be used for flow classification, the flow classifier may deal 
with huge amount of data, which contains irrelevant and 
redundant features causing slower training and testing 
process, higher resource consumption as well as poor 
classification accuracy. Therefore, feature selection plays a 
vital role in performance optimizing. In this paper, we 
propose a hybrid feature selection method for flow 
classification using Chi-Squared and C4.5 algorithm 
(ChiSquared- C4.5). The experiments demonstrate our 
approach can greatly improve computational performance 
without negative impact on classification accuracy. 

Keywords: Chi-Squared, C4.5, Feature Selection 

1. Introduction 

Accurate and timely identification of networked 
applications is an enabling function for numerous network 
activities, including security monitoring, accounting, 
Quality of Service, and intrusion-detection. However, 
simple port-based classification and packet payload-based 
analysis exhibit a number of shortfalls. Port-based 
classification is currently significant misleading due to the 
increase of port-agile networked applications and the wide 
use of network address port translation. Payload-based 
analysis relies on the knowledge about the payload formats 
for every application of interest. It is too slow and limited 
by privacy laws and encryption. 

Machine learning techniques provide a promising 
alternative in classifying flows based on application payload 
independent statistical features. Recently much of related 
research focuses on the achievable accuracy. But in a 
practical system, computational performance is vitally 
important [1]. 
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2007AA010501) 


Feature selection can significantly improve computational 
performance of classification by removing redundant and 
irrelevant features. In this paper, we propose a hybrid 
feature selection method for flow classification using Chi- 
squared algorithm and C4.5 classifier. To our best 
knowledge, it is the first time that a hybrid feature selection 
method is employed in flow classification. A series of 
experiments show our approach can greatly reduce the 
number of features for flow classification without negative 
impact on classification accuracy. 

The rest of this paper is organized as follows. Section 2 
discusses related work. Section 3 details our method for 
feature selection. Section 4 illustrates relevant experiments 
and evaluations. In Section 5 we conclude and discuss 
future work. 

2. Related works 

In recent years, it has been seen an increased interest in 
the development of machine learning techniques for flow 
classification. 

McGregor et al. [2] use EM algorithm to cluster flows 
described by features such as packet length, inter-arrival 
time and flow duration. Roughan et al. [3] invent a 
statistical signature of application and use nearest neighbor 
(NN) to separate flows into classes. Bernaille et al. [4] use 
three clustering algorithms to perform classification based 
on the features of the first four packets. Karagiannis et al. [5] 
develop a method that can classify flows into different 
application types based on characterizing host behavior on 
different levels. 

In some of research works feature selection has already 
been adopted. Zander et al. proposed an approach to 
identify different network applications based on greedy 
forward feature search in [6]. Moore and Zuev present a 
Naive Bayes method with kernel density estimation (NBK) 
in [7]. They generate 248 flow features and select feature 
subsets using Fast Correlation-Based Filter (FCBF). They 
find that only fewer than 20 features are required for 
accurate classification. William et al. [1] consider 
computational performance of classification. In their 
comparison, C4.5 algorithm is fastest in term of 
classification speed. They also find that feature selection 
using CFS and Consistency evaluation can greatly improve 
computational performance, and meanwhile the 
classification accuracy is not degraded. 

3. Proposed approach 

Feature selection is an important preprocessing step in 
Machine Learning. The benefits of feature selection can 
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include a reduction in the amount of data needed to achieve 
learning, reduced execution time, and improved 
classification accuracy. Feature selection algorithms can 
broadly fall into the filter model or the wrapper model [7]. 
Filter methods use the characteristics of training data to 
determine the relevance and importance of certain features. 
On the other hand, wrapper methods require one 
predetermined learning algorithm in feature selection and 
use its performance to evaluate and determine which 
features are selected. It tends to give superior performance 
as it finds features better suited to the predetermined 
learning algorithm, but it also tends to be more 
computationally expensive [16]. For high dimension data, 
the filter method is usually a choice due to its computational 
efficiency. 

To combine the advantages of both models, algorithms in 
a hybrid model have been proposed to deal with high 
dimensional data [17 ， 18]. In this paper, we propose a 
hybrid feature selection method for flow classification. The 
experiments described in Section 4 show the proposed 
ChiSquared-C4.5 method is very helpful for computational 
performance optimizing without negative impact on 
classification accuracy. 

3.1. Chi-squared 

The Chi-Squared ( j 2 ) method [10] is a feature weighting 
algorithm that is sensitive to feature interactions. It is built 
on the top of the entropy method and evaluates features 
individually by measuring their chi-squared statistics with 
respect to their classes. For a numeric attribute, the method 
first requires its range to be discretized into several intervals 
using, for example, the entropy-based discretization method 
[14]. The x 2 value of an attribution is defined as: 

(5) 

Where m is the number of intervals, k is the number of 
classes, Ay is the number of samples in the /th interval, y'th 
classes, Ri is the number of samples in the zth interval, C y is 
the number of samples in the yth classes, N is the total 
number of classes, m the total number of samples, and Ey 
the expected frequency of Ay (E^ = * C/N). 

After calculating the % 2 value of all considered features, 
we can rank features based these values, as the larger the x 2 
value, the more important the feature is. The degree of 
freedom of the above % 2 -statistics is (m-iy(k-l). Since in 
most cases, there are only two intervals found for a feature 
(ie ， m=2), we use k-1 as the degree of freedom for the % 2 - 
stattistics. 

3.2. C4.5 decision tree 

The decision tree classifier by Quinlan [8] is one of most 
well-known machine learning techniques. A decision tree is 
made of decision nodes and leaf nodes. Each decision node 
corresponds to a test Y over a single attribute of the input 
data and has a number of branches, each of which handles 


an outcome of the test Y. Each leaf node represents a class 
that is the result of decision for a case. 

We use the C4.5 algorithm to construct the decision trees. 
The algorithm uses a splitting criterion based on the 
Information Gain Ratio. The idea is to partition the training 
set in such a way that the information needed to classify a 
given example is reduced as much as possible. 

Formally, let S be the training set, |*S1 the number of 
records in S, and freq(C t ,S) the S number of records that 
belongs to class i where i = {1，. . . , N}. The average 
amount of information (entropy) needed to identify a given 
class is: 


導卜 (4) 

j=I I △ I I 厶 I 

Hence, the amount of information needed to split the set S 
into n distinct subsets {Si}, in agreement to the test ( Test A ) 
result, is: 


Ho T es, A (S) = f}-^*Info(S i ). 
i=l *-> 


The gain is computed as: 

gainRatio(Test A ) - 

where 


gain(Test A ) 
splitInfo( Test A 


gain(Test A ) = Info(S)-Info TestA (S). 
By analogy with the definition of Info(S), we have 

splitInfo(Test A )= -客货 * 

that represents the potential amount of information 
generated by dividing S inton subsets. 


(5) 


⑹ 

⑺ 

⑻ 


3.3. Feature selection based on Chi-Squared and C4.5 

In algorithms based on hybrid model, first, a goodness 
measure of feature subsets based on data characteristics is 
used to choose best subsets for a given cardinality, and then, 
cross validation is exploited to decide a final best subset 
across different cardinalities. These algorithms mainly focus 
on combining filter and wrapper algorithms to achieve best 
possible performance with a particular learning algorithm at 
the same time. The proposed algorithm is a variation of 
hybrid method. It first eliminates irrelevant features with IG, 
and then selects optimal feature subset with a wrapper 
method. Since C4.5 is the fastest classifier in experiments 

[1], we use it as feature subsets evaluator and genetic 
algorithm (GA) [9] as search component in the wrapper 
method. The algorithm operates as follows: 

(1) Rank all features in order of importance as calculated by 
the Chi-squared method. 

(2) Construct a new feature set with the top k features. 

(3) Select optimal feature subset in the new feature set using 
a wrapper feature selection algorithm based on GA and 
C4.5. 

At last, the question arises as to how to determine the 
value of k. From [7], we know that only fewer than 20 
features are required for accurate classification. So we 
choose 30 as the value of k. 
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3.4. Flow classification based on hybrid feature selection 

The overall flow of our approach is depicted in Fig. 1. 
The approach start the reduction of irrelevant features with 
IG at first and then search a feature subset S which is 
evaluated by C4.5. The metric of the evaluation is 
p err or ( s best) which represents the best feature 
subset S be „ .After initialing the values of S bes , and P err JS best ), 
the approach goes into an iterative procedure. In each 
iteration, generated feature subset S is compared by 
previous best subset S best . If S is better than S best , it is 
assigned as S best . In this process, each subset S generated by 
GA is evaluated by C4.5 in an iterative way. If P error (S) is 
lower than it is assigned &sP err JS best ) and the 

approach goes forward. The approach stops if a predefined 
stopping criterion J is reached or when maximum number 
of iterate I max is reached. S best is returned as the optimal 
subset of features. In next phase, only the selected feature 
subset S best is used to build flow classifier. 



Figure 1: Flow chart of a hybrid feature selection 
algorithm for flow classification 

In our method, IG is firstly adopted to remove irrelevant 
features. It can greatly reduce the number of features and 
then allow for a wrapper-based methodology. To evaluate 
the feasibility of our approach, several experiments are 
carried out. The following section presents the results of 
experiments and their analysis. 

4. Experiments and evaluations 


In the following experiments, firstly, we select optimal 
feature subsets using ChiSquared-C4.5. Secondly, we 
compare the relative computational performance and 
classification accuracy with and without reduced feature 
sets. Finally, we compare the gross statistics of accuracy 
and precision between our approach and NBK method after 
FCBF prefiltering [7]. 

4.1. Datasets description 

In order to verify the effectiveness of our approach, we 
take use the datasets taken from [11] to make experiments. 
The datasets were generated for flow classification by 
Moore and Zuev [7]. Their trace data for creating the 
datasets was collected by the high-performance network 
monitor described in [12]. They use its loss-limited, full- 
payload capture to disk providing time-stamps with 
resolution of better than 35 nanoseconds. The site they 
examined hosts several Biology-related facilities and there 
are three institutions on-site that employ about 1,000 
researchers, administrators and technical staff. Traffic was 
monitored for each traffic-set consists of a full 24 hour, 
week-day period and for both link directions [7]. 

Tablel: Examples of features 

Discriminator 
Flow Duration 
TCP Port 

Packet inter-arrival time 
Payload size 


Table2: Network flows allocated to each classes 


Classification 

Example Application 

BULK 

ftp 

DATABASE 

postgres, sqlnet, oracle, ingres 

INTERACTIVE 

ssh, klogin, rlogin, telnet 

MAIL 

imap, pop2/3, smtp 

SERVICES 

XII ， dns, ident, ldap, ntp 

WWW 

WWW 

P2P 

KaZaA, BitTorrent, GnuTella 

ATTACK 

Internet worm and virus attacks 

GAMEA 

Half-Life 

MULTIMEDIA 

Windows Media Player, Real 

Table3: Data statistics (number of flows) 

Flow classes 

Flow numbers 

WWW 

328091 

MAIL 

28567 

BULK 

11539 

SERV 

2099 

INT 

110 

P2P 

2094 

ATTACK 

1793 

MMEDIA 

1152 

DB 

2648 

GAMES 

8 

Total Flows 

377526 
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Dataset Index 


Figure 3 shows the normalised classification speed in ten 
evaluations with all features and selected features. A value 
of 1 represents the fastest classification speed (118626 
classifications per second on out test platform). It can be 
seen a significant improvement on classification speed after 
using ChiSquared-C4.5 in ten evaluations. 


Dataset Index 

Figure 2: Build time comparison in ten evaluations 


Figure 3: Normalised classification speed in ten 
evaluations 



Dataset Index 


Build time with all features 
I I Build time with selected features 
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4.3.2. Impact of feature reduction. This section will evaluate the 
impact of ChiSquared-C4.5 with all features selected classification 
on computational performance and accuracy. Tests were 
performed on an unloaded 3.0GHz Pentium 4 workstation running 
Ubuntu Linux 6.06. Figure 2 compares the build time of C4.5 
algorithm for ten evaluations with and without reduced feature. 
After feature selection with QiiSquared-C4.5 the build time has 
significantly reduced. For the largest dataset, the build time is 971 
seconds with all features. After feature selection, only 16.11 
seconds are needed for building classifier. 


In the datasets, flows are defined by source IP and source 
port, destination IP and destination port and protocol. Each 
flow has 248 flow features. Table 1 shows a few examples 
of them. The full list of features is given in [14]. The classes 
of flows are defined as common groups of applications. 
Table 2 lists these classes. The manual classification 
process is described in [13]. Table 3 details the statistics of 
flow number in the datasets. 

4.2. Experimental Scheme 

There are ten datasets for training and testing. In our 
experiments, the accuracy and computational performance 
is evaluated by training the classifier using one dataset and 
testing it against the other nine datasets. This process cycle 
of training with one dataset and testing against the other 
datasets is repeated once for each dataset. 

To evaluate the impact of ChiSquared-C4.5 on 

computational performance, we adopt build time and 
classification speed as two metrics. 

To evaluate the impact of ChiSquared-C4.5 on 

classification accuracy three standard metrics are used [1]: 

• Accuracy: the percentage of correctly classified instances 
over the total number of instances. 

• Precision: the number of class members classified 
correctly over the total number of instances classified as 
class members. 

• Recall (or true positive rate): the number of class 
members classified correctly over the total number of class 
members. 

In the experiments, we calculate accuracy and recall rate 
on three classes (WWW, P2P and MAIL) to verify the 
impact of ChiSquared-C4.5 method. For complexity of the 
experiment, other seven classes are excluded. For 
comparing with NBK method, we compute the gross 
statistics for accuracy and precision which are accumulated 
for all ten evaluations and used in [7] for evaluation. 

4.3. Results and analysis 

4.3.1. Feature reduction. Our ChiSquared-C4.5 method was 
described in section 3.2. In our method, GA algorithm was 
adopted as search component and the C4.5 classifier was used as 
feature subsets evaluator. Table 4 demonstrates the selected feature 
number on each training set using ChiSquared-C4.5 and FCBF. It 
can be seen both methods are able to greatly reduce the feature 
numbers for flow classification. 

Table 4: Number of optimal features for each training 
set 

Training set ChiSquared-C4.5 FCBF 


01 

9 

4 

02 

5 

3 

03 

10 

7 

04 

14 

7 

05 

5 

11 

06 

9 

5 

07 

11 

15 

08 

9 

16 





Speed with 
1 Speed with 

all fea 

select 

ures 

ed features 

1 

1 

1 

1 

I 

I 

1 

1 

I 

1 



P90Q. CO UOI1 CO OIIISS CC IOP0SII CO UJJOZ: 


o o o o 

80604020 
oa) s)s a} Ell plln CQ 


523 







































































Dataset Index 

Figure 6: Recall on MAIL in ten evaluations 


Figure 5: Recall on WWW in ten evaluations 


Accurate and timely identification of networked 
applications is fundamental for numerous network activities. 
Traditional port-based classification and payload-based 
analysis exhibit a number of shortfalls. It has been seen an 
increased interest in the development of machine learning 
techniques for flow classification based on per-flow features. 
Since a lot of flow features have been generated for 
classification, feature selection plays a vital role in 
performance promotion. 

In this paper we propose a hybrid-based feature subset 
selection method for flow classification using Chi-squared 
algorithm and C4.5 algorithm. The experiments show 
ChiSquared-C4.5 can greatly improve computational 
performance without negative impact on classification 
accuracy. The experimental results also indicate our 
approach performs better than NBK after FCBF. 

The paper only presents our preliminary work and there is 
a lot of future work for us. In the experiments, we find that 
the identification accuracy of P2P applications is still in a 
low rate. In the future, we plan to improve the identification 
accuracy of P2P applications using other algorithm. We also 
plan to try other feature selection methods to generate better 
feature subsets for flow classification. 

6. References 


Recall with all features 
I I Recall with selected features 


I Recall with all features 
]Recall with selected features 


Figure 8: Gross precision on three classes 
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Figure 7: Recall on P2P in ten evaluations 
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Figure 4: Accuracy comparison in ten evaluations 

After discussing the impact of ChiSquared-C4.5 on 
computational performance, we will subsequently analysis 
its effect on classification accuracy. Figure 4 plots the 
comparison of overall accuracy. From Figure 4, we can see 
the accuracy value with selected features is higher in five 
evaluations and the differences of these values are very 
small. C4.5 with selected features has higher average 
accuracy (0.9882) than that with all features (0.9863), 
nearly 0.2% increases. This indicates the proposed approach 
has no negative impaction on classification accuracy. 

Figure 5, 6 and 7 show the comparison of per-class recall 
rate on WWW, MAIL and P2P. In Figure 5 and Figure 6, 
the recall rates with selected features are higher in most 
evaluations. In Figure 7, the P2P recall rates with selected 
features only have higher values in five evaluations. The 
results indicate per-class recall rate also can benefit from 
ChiSquared-C4.5. 


The above results suggest that the ChiSquared-C4.5 
method not only optimize computational performance, but 
also promote classification accuracy. 

4.3.3. Comparing with NBK after FCBF. The computational 
performance of NBK and C4.5 algorithm has been compared by 
Williams etal [1]. In their study, NBK classifier can be build more 
quickly than C4.5, but the C4.5 algorithm is significantly fester in 
terms of classification speed. So in this section we only compare 
the gross statistics for precision with NBK after FCBF. Since the 
same datasets are used, we can compare the experimental results 
directly. Figure 8 plots the gross precisions of our approach and 
NBK after FCBF. We can see the gross precisions of our method 
on three classes are obviously greater than NBK after FCBF, 
especially on P2P. 
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Abstract 

Flash crowd events (FCEs) and malicious traffic 
including DDoS and worm attacks present a real threat 
to the stability of Web services. In this paper，we design 
a practical defense system that can provide some 
needed relief from the two types of events and protect 
the availability of Web services. A novel method of 
dynamic bandwidth arbitration using Generalized 
Vickrey auction based on microeconomics is proposed. 
By adopting this approach, not only the availability of 
Web services is improved but also the total utility of 
users can be maximized. Initial simulations have shown 
that this mechanism is promising direction to control 
both FCEs and malicious traffic. The presentation in 
this paper is a first step towards a more rigorous 
evaluation. 

1. Introduction 

Flash crowd events (FCEs) and malicious traffic 
such as that generated by distributed denial-of-service 
(DDoS) attacks and propagation of worm traffic have 
received considerable attention from the research 
community recently [1,2,3]- FCEs occur when a very 
large number of users simultaneous access a popular 
Web server or rapid spread of news about an event. 
Common examples of events include widely known 
ones as the release of Ken Starr’s report on a few Web 
servers in 1999, popular webcasts like that of 
Victoria’s Secret company, and sports events like the 
Olympics. Malicious traffic, unlike FCEs, is created by 
a large amount of illegitimate requests from one or 
more hosts. This artificially high load denies or 
severely degrades service to legitimate users of that 
Web server. A series of malicious traffic attacks 
occurred in February 2000 to considerable media 
attention, resulting in higher packet loss rates in the 
Internet for several hours [4]. 


While the intent and the triggering mechanisms 
for FCEs and malicious traffic are quite different, from 
the network’s perspective these two events are quite 
similar. They are all characterized by a large and 
sudden increase in demand for both the network and 
Web server resources and their final effect is a 
dramatic reduction in service quality to clients sharing 
the network and the server. Even worse, sustained 
overload can bring networks and especially Web server 
to a complete halt. 

The objective of this work is to design an 
effective and practical countermeasure that allows a 
victim Web server or network to sustain high 
availability during FCEs and malicious traffic. 
Therefore, an auction-based dynamic bandwidth 
arbitration gateway (ABA gateway) is presented. 
Within ABA gateway, an economic mechanism based 
on auctions is used as a dynamic optimization. And 
Generalized Vickrey auction (EA) is most suitable for 
our purposes, because its incentive compatibility and 
Pareto efficiency according to microeconomics. 
Differing from other mechanisms, the bandwidth 
allocation is not fixed in ABA gateway. On the 
contrary, it is dynamic according to the “bid” of the 
clients. With the control of economic mechanism, ABA 
gateway offers protection to Web server against the 
two types of events. In addition, the total utility of 
users can be maximized. 

The contributions of this paper are threefold. First, 
we present a novel method based on microeconomics 
using generalized Vickrey auction to defend against 
FCEs and malicious traffic. Second, we adopt a throttle 
mechanism in our study, which makes it easy to 
manage and deploy. Finally, we present an adaptive 
throttle algorithm, in witch client’s bandwidth depends 
on his sending rate and traffic that exceeds the rate 
limit will be dropped. Furthermore, to avoid stealing a 
fair share of bandwidth, the concept of total wealth is 
presented and a client who consumes his quota of 
wealth will also not gain bandwidth. Therefore, the 
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maximum throughput of Web server can be guaranteed 
and the total utility of users can be maximized too. 

The remainder of this paper is organized as 
follows. Section 2 defines the generalized Vickrey 
auction model. Section 3 introduces the architecture of 
ABA gateway in more detail. The simulation study 
results by ns-2 are shown in section 4. We discuss 
some related works that tackle the problems of FCEs 
and malicious traffic in section 5. Section 6 concludes. 

2. Generalized Vickrey auction model 

The basic mechanism of ABA gateway is for a 
Web server under stress to install a rate-throttle at the 
upstream router or firewall. The throttle can be the 
leaky-bucket rate at which a router or firewall can 
forward packets destined for the Web server. Hence, 
before aggressive packets caused by FCEs or malicious 
traffic can converge to overwhelm the Web server, 
ABA gateway proactively regulate the contributing 
packet rates to more moderate levels, thus forestalling 
an impending attack. In allocating the server bandwidth, 
we propose a notion of generalized Vickrey auction 
model. 

An auction is a mechanism consisting of: ① users 
submitting bids, i.e. declaring their desired share of the 
total resource and a price they are willing to pay for it, 
and ② the auctioneer allocating shares of the resource 
to the users based on their bids. 

Consider a backbone network, that has a total 
capacity of C, and a set of clients (bidders) I={ 1,2,-—,I}. 
Client i’s bid is Si=(qi, p^E S F [0,C]x[0, oo)，meaning he 
would like a quantity qi at a unit price pi. Let A i denote 
the client i’s arrival rate and Tj denote the throughput. 
When there is no FCEs and malicious traffic and the 
network is uncongested, set pi = A i. On the contrary, 
since a client’s bandwidth is limited by rate-throttle, 
the function of pi we will use is: 

= j 乂 ； if 為 <r h 

P 1 } r h - Aj otherwise ) 

where the threshold R H is chosen to limit the rate of 
every client. We assume that the service time of Web 
service is exponentially distributed and the arrivals are 
Poisson processes. Further, if the individual streams are 
Poisson, the total arrival process is also Poisson, with 
rate equal to the sum of the individual rates. Thus, we 
have an M/M/1 queue, and the throughput Ti is 
proportional to pi. Using qi as the coefficient, the 
equation of Ti is thus: 

Ti = q iPi (2) 

2.1. Arbitration rule 


We use the utility function of Web server to 
quantify the quality of service. The overall system 
utility is related to total throughput and hence it can be 
written as: 

max ^ Tj (3) 

i 

Therefore, the bandwidth allocation rule can be 
described as follow: 

TFmindJC - ]) (4) 

{j: Pj>Pi) 

According to Equation (4)，ABA gateway sorts pi (bid) 
of each client and allocate bandwidth in turn using 
Equation (2) until all the bandwidth is consumed. 
Furthermore, ABA gateway runs a generalized Vickrey 
auction, and the K highest-bidding clients get to 
connect to Web server, paying the K+l^ price 
Pk+i(described below). As Refs.[5] points out, a 
generalized Vickrey auction satisfies Pareto efficiency 
and incentive compatibility. Thus, the maximum 
throughput of Web server can be guaranteed and the 
total utility of users can be maximized too. 

2.2. User’s behaviour restriction 

Because the total number of packets of a client 
will send during a Web transaction is not very large 
(several hundred to a few thousand) [6]. Thus, a client 
cannot bid higher than what he currently has. Let W 
denote the total wealth of each client, and set Wo as the 
initial value. When a client succeeds in bidding, the 
wealth will be reduced, which is constrained by: 

W t+ i = W t -p (k+ i )t (5) 

where p(k+i) t is the K+l th price of the clients. If W<0, 
i.e., a client has consumed his wealth, he cannot bid 
again and ABA gateway will not allocate bandwidth to 
him any more. Therefore, each client will control his 
rate rationally, and make his bandwidth maximization 
at the same time. The aforementioned mechanism is 
used to counter the strategy of the attacker who 
maintains a low rate and steal a fair share of bandwidth. 

3. Architecture of ABA gateway 

As can be seen from Figure 1, the architecture of 
ABA contains three essential components, which are 
congestion evaluation (CE), rate estimator (RE) and 
bandwidth arbitrator (BA). The function of CE is to 
detect congestion on the network. Only there is 
congestion, ABA gateway will take effect and perform 
rate limiting on the amount of traffic destined for the 
victim Web server, which is done by bandwidth 
arbitrator. RE is used to estimate the rate of each client 
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in order to calculate pi. In the following subsections, we 
will introduce these components in detail. 



Figure 1. The architecture of ABA gateway 


3.1. Congestion evaluation (CE) 

Comparing actual queue size and threshold T max 
to detect congestion is a sample method. But this 
method will not be precise when there is short-term 
increases in the queue size that result from transient 
congestion. Thus, we use [7] for reference that 
monitors the average queue size to determine the 
degree of congestion by a lowpass filter with an 
exponential weighted moving average: 

Qe = (1 - Wq )x Qe + Wq x SampleQe (6) 
where Qe and SampleQe denote average queue size 
and actual queue size. Weight Wqe (0,1), determines 
the time constant of the lowpass filter. With average 
queue, ABA gateway can accommodate occasional 
transient congestion and detect longer-lived congestion 
in the queue. 

3.2. Rate estimator (RE) 

In order to get the client’s bid pi, we must work 
out the rate A i according to Equation (1). Following [8], 
we estimate the rate A i of each client using exponential 
averaging. Let tik and lik be the arrival time and length 
of the k* packet. The estimated rate A i is updated every 
time a new packet is received: 

4 +1 =(l-e- Tit/C )h + e- T ’4 ⑺ 

where = tik _ ti(k-i) and C is a constant. 

By doing so, the outgoing flow rates will be 
properly represented. 

3.3. Bandwidth arbitration algorithm 

In this section, we present a pseudocode algorithm 
for ABA gateway, which is described in Figure 2. 

The procedure can be described as follows: on 
receiving each packet, ABA gateway will compute 


average queue size to detect whether there is congested. 
If high congestion is found, the function estimate—rate() 
will be triggered to estimate the rate A i to obtain the 
bid of pi, which will be used to get the wealth Wi of 
each client. If Wj<0, then the client’s connection will 
be reset. Otherwise, BA will perform bandwidth 
allocation with arbitration rule by Equation (4). 


on receiving packet of client i 

if(Qe<T max ) 

// use Eq. (6) 

return; 

// no congestion 

Ai = estimate_rate(); 

// use Eq. (7) 

if(Ai>R H ) 


Pi=R H —Ai; 


if( W<0) 

// use Eq. (5) 

disconnect client i; 


else 


allocation (i); 

// use Eq. (4) 


Figure 2. The pseudocode of ABA gateway 


4. Simulation study 

We conducted a simulation study, obtained using 
the Berkeley Network Simulator (ns-2)[9], that test the 
effect of ABA gateway in a variety of aggregate-based 
congestion scenarios. The simulations do not pretend to 
use realistic topologies or traffic mixes, or to stress 
ABA gateway in difficult or highly dynamic 
environments; the simple simulations in this scenario 
are instead intended to illustrate some of the basic 
underlying functionality of the ABA gateway 
mechanisms as a first step towards a more rigorous 
evaluation. 

Figure 3 shows the topology for simulations. We 
first introduce an informal terminology that would help 
us in describing the simulations. The node 1, node 2 
and node 3 send attack traffic to the victim destination 
node 6 (Web site), and the node 4 is innocent node that 
happens to send traffic to the destination node 6 when 
it is under attack. Node 5 is ABA gateway. 

Figure 4 shows the total throughput suddenly 
jumps to about 240kbps around the time 2s, when the 
attack starts. Then it goes down to 120kbps around 
time 4s. This is the time ABA gateway perform rate- 
limit according to bandwidth arbitration algorithm. 
Note that by averaging the throughput is 100kbps after 
time 4s. 

Through the above simulation, we have achieved 
our aforementioned goals. We verified that bandwidth 
arbitration algorithm of ABA gateway indeed 
guarantees the sustaining availability of Web service. 
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Figure 3. Simple topology 
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5. Related works 

Several recent studies have focused on 
characterizing and countering aggregate traffic during 
FCEs [10,11]. These research efforts are the detection 
of, and/or protection from, FCEs and Malicious traffic. 
Measurement studies such as [12,13], to name a few, 
have investigated the impact of TCP congestion control 
on the behavior of underlying traffic (e.g., throughput, 
self-similarity). On the other side of the spectrum, the 
authors of [14] presented analytical characterizations of 
throughput of TCP’s congestion control as a function 


of RTT and packet loss probability. Our ABA gateway 
is similar to [15]. In [15], each perimeter router is 
required to perform rate limiting on the amount of 
traffic destined for the victim network. The amount of 
traffic over the threshold will be randomly dropped. 
However, the effectiveness of the scheme depends on 
whether all of the perimeter routers collaborate well. 
When comparing with other methods, by using a novel 
auction-based theory, ABA gateway can detect 
congestion in advance and allocate bandwidth with 
arbitration rule. On the other hand, by adopting a 
throttle mechanism, it is easy to manage and deploy. In 
addition, the maximum throughput of Web server can 


Proceedings of the IEEEA/VIC/ACM International Conference on Web Intelligence (Wl'04) 
0-7695-2100-2/04 $ 20.00 IEEE ^ 


扇 

Computer 

society 



be guaranteed and the total utility of users can be 
maximized too. 

6. Conclusion 

The objective of this work is to design an effective 
and practical countermeasure that allows a victim Web 
server or network to sustain high availability during 
FCEs and malicious traffic. Initial simulations have 
shown that this mechanism is promising direction to 
control the two types of events. However, the 
presentation in this paper is a first step towards a more 
rigorous evaluation. Hence, more study is needed to 
evaluate the robustness of the approach in more diverse 
deployment scenarios. 
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Abstract 

Simulation is widely recognized as an essential tool 
to analyze large-scale networks. Routing is a key 
factor which impacts the scale and efficiency of 
simulation. This paper presents a new approach to 
routing calculation, storage and lookup, named 
MTree_Nix. It maintains variable number of spanning 
trees as the base routing table and uses well-known 
Nix- Vector routing to compute on demand the routing 
states that cannot be covered by any of the spanning 
trees. Theoretically, we obtain the constraint condition 
on the optimized trade-off between space and time in 
MTree_Nix routing. Integrated with the advantages of 
the current routing mechanisms, MTree_Nix comes to 
a better trade-off between the storage space for the 
routing tables and the CPU time for routing lookup. 
Experimental results show that, with an increasing 
storage space of only about 1% more than Nix- Vector, 
MTree_Nix can reduce the simulation time for about 
85% compared with Nix- Vector. 

1. Introduction 

The last decade has seen the rapid growth of 
Internet. Due to the complexity of networks, 
simulation plays a vital role in attempting to 
characterize both the behavior of the current Internet 
and the possible effects of proposed changes to its 
operation. The use of simulation is becoming 
increasingly prevalent in the networking research 
community. 

Scale and efficiency are two key performance 
factors of the simulations. Researchers aim at 
increasing the scale and improving the efficiency of the 
simulation with the limitation of available resources on 
computers. Routing is the most important among many 
factors that affect simulation scale and efficiency. 
Firstly, memory requirement for routing states is one 
major bottleneck in large-scale network simulation, 
while limited memory resources severely constrains 


the size of the networks being simulated. Secondly, 
looking up routing states costs a lot of CPU time 
during the simulation, and greatly impacts simulation 
efficiency. Thus, an efficient routing computation, 
storage and lookup mechanism can improve simulation 
scale and efficiency remarkably. 

Memory requirement for routing table and CPU 
time requirement for routing states lookup are two vital 
parameters that can be used to evaluate a routing 
mechanism. It will be more efficient for a routing 
mechanism to achieve a better trade-off between them. 

After analyzing some of the current routing 
mechanisms, we present an efficient routing 
computation, storage and lookup approach, named 
MTree Nix. MTree_Nix integrates the advantages of 
some well-known routing mechanisms, maintains 
variable number of spanning trees as the base routing 
table for most of the shortest-path routing states, and 
for those that can not be covered by any of the 
spanning trees, MTreeJSfix uses Nix- Vector routing to 
compute them on demand. By analyzing the storage 
space requirement and CPU time for routing states 
lookup, we get the best trade-off between them, and the 
constraint condition to achieve this. 

The remainder of this paper is organized as follows. 
Section 2 gives an overview of some existing routing 
mechanisms. Section 3 describes the design and 
implementation details of MTreeJSfix routing 
mechanism. Section 4 gives the theoretical and 
experimental results. Finally, section 5 describes 
conclusions and future directions of our research. 

2. Related work 

The main difference between routing mechanisms 
in simulation and real networks is that the simulator 
knows all the characteristics of the network topology to 
be simulated. Simulators can then compute and store 
routing states in a centralized fashionfl] when details 
of message exchange are not crucial and memory or 
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computation resource is scarce. In this section we will 
introduce some existing routing mechanisms. 

Flat routing performs shortest route computation 
and generates a routing table that each node has the 
next hop information to every other node. Obviously 
Flat routing needs the largest space to maintain the 
routing table, its space complexity is 0{N 2 ) where N is 
the number of nodes. However, looking up a neighbor 
node is 0(1) for a given pair of a current node and a 
destination node, the time complexity is the smallest. 

Huang et al. [2] have proposed algorithmic routing 
approach that greatly reduces the size of routing tables 
in a special case where any route between two nodes is 
covered in a unique spanning tree. In this case, instead 
of a general routing table, a simulator may keep a 
spanning tree as a routing table whose size is only 
0(N) while a lookup operation needs 0(1 gN). 
Algorithmic routing gets a better trade-off between the 
storage space and the CPU time for routing lookup, but 
it only provides partial shortest-path routing since not 
all the shortest paths are covered by the spanning tree. 

Hiromori et al. [3] extended the algorithmic routing 
method to allow generic routings. It represents the 
general routing table as the combination of a spanning- 
tree based routing table and a partial general routing 
table, by translating a part of the given general routing 
table into the spanning-tree based one (we call it 
STree Flat routing hereafter). When looking up a 
routing state, if an entry in the general routing table 
can be represented by the spanning tree using the 
algorithmic routing method (we say that the entry is 
covered by the spanning tree hereafter), then the entry 
is represented by the spanning-tree based routing table. 
Otherwise, it is represented in the general routing table 
as it is. The space and time complexity depends on 
how many entries in the given general routing table 
can be covered by the spanning-tree based routing 
table (we call it the coverage percentage of the 
spanning tree hereafter). Given that the coverage 
percentage is p, the space needed by STree 一 Flat 
routing is 0(N+(\-p)xN 2 ) , and the worst time of 
each lookup is 0(\gN + (\-p)xN 2 ) . STree 一 Flat 
routing greatly reduces the space requirement, but 
highly increases the runtime, and gets even worse 
trade-off than Flat routing. 

Chen et al. [4] further extended the STree_Flat 
routing method by maintaining multiple spanning trees 
combined with a partial general routing table to 
represent the general routing table in Flat routing (we 
call it MTree_Flat routing hereafter). MTree Flat 
routing is almost the same as STree_Flat, except that 
when looking up a routing state, if it is covered by one 
of the spanning trees, MTree Flat routing has to search 
all of them and choose one with the shortest path 


length. The space and time complexity of MTree Flat 
routing also depend on the coverage percentage. Given 
that the coverage percentage is p and the number of 
spanning trees is k, the space requirement is 
0(kxN + (\-p)xN 2 ) , and the worst computation time 
of each lookup is 0(kx\gN+ [\_p)xN 2 ) • Since it 
obviously has higher coverage percentage than 
STree_Flat routing, MTree_Flat routing has better 
space and time complexity than STree_Flat routing, 
and also better trade-off. However, as the size and 
complexity of the topology increase, the number of 
routing states which cannot be covered by the spanning 
trees will still be extremely large, and so will the space 
and time requirement. 

Besides the routing mechanisms mentioned above, 
there is another kind of methods that doesn’t maintain 
any routing state, but computes them only when the 
packet is generated. Nix- Vector routing mechanism, 
which is proposed by Riley et al. [5, 6], represented 
this kind of routing methods. Nix- Vector routing 
deletes completely the need for routing tables. Instead, 
it computes routing states on demand whenever a new 
packet is generated, and then includes the routing 
information into the simulated packet. When the packet 
arrives at a simulated node, the routing decision can be 
made by examining the packet, rather than looking up 
routing tables. Nix- Vector routing needs no space at all 
for routing states, and has the smallest space 
complexity. But it has to traverse the topology to 
compute the routing information that the packet needs 
whenever a new packet is generated, so the time 
complexity is pretty large. Using breadth first search 
algorithm, the time complexity is 0(N+E), where E is 
the number of links. 

3. MTree—Nix routing 

3.1. MTree—Nix routing approach 

For any routing mechanism in network simulation, 
storage space requirement for routing tables and CPU 
time requirement for routing lookup operations are two 
key factors. However, there is a contradiction between 
them. To achieve faster lookup, larger space has to be 
used to store more routing information. Flat routing is 
implemented in case of unlimited memory resource, to 
achieve the best time complexity of 0(1) with the 
largest space complexity of 0{N 2 ). However, scarce 
memory resource is the main factor to limit the size of 
network simulation. Almost all the routing 
mechanisms after that regarded the reduction of storage 
space requirement as the only goal to design the 
routing mechanisms, such as STreeFlat and 
MTree_Flat routing. Nix- Vector routing mechanism 
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even requires none of the storage space without any 
computation for routing information during the 
initialization of the simulator. However, as it needs to 
use BFS algorithm to compute shortest-path routing 
information whenever a new packet is generated, Nix- 
Vector routing mechanism has a large time complexity 
for routing lookup. So, it is not appropriate in some 
kinds of simulations of large-scale networks and 
complex applications, such as worm propagation. 

As a result, it is unreasonable that we only take into 
consideration the space or time requirement when 
designing a routing mechanism. Instead, we should 
achieve a better trade-off between them according to 
the simulation. 

Although Nix-Vector routing mechanism has the 
lowest space requirement for routing tables, it is not 
appropriate in certain kinds of simulations. If we can 
introduce a mechanism to compute and store routing 
tables, which needs storage space as small as possible 
to maintain most of the routing information and has 
faster lookup time, we can incredibly reduce the 
requirement to compute the Nix- Vector and use the 
more efficient routing lookup method instead, and 
enhance the efficiency of the routing mechanism. 

In order to implement the idea mentioned above, we 
need to find a data structure to store routing 
information, which should have the characteristics of 
low space complexity and efficient lookup time for 
routing states between any pair of nodes. Spanning tree 
is an appropriate data structure. Since the Internet-like 
networks are typically not dense, if we generate a 
spanning tree for such graph, a relatively large 
percentage of shortest paths between vertices will be 
contained within the tree. As the space complexity of 
the spanning tree is 0(N), this will greatly reduce the 
space requirement for routing tables. When we create 
more spanning trees for the graph, each one will 
contain a different subset of the shortest paths between 
vertices. Thus, as the number of spanning trees 
increases, so does fraction of shortest paths that are in 
the set. One extreme is if we pick N spanning trees, 
they could potentially cover all the shortest paths, but 
the size of the trees would be 0(N 2 ), just like the 
general routing table in Flat routing. So it’s a key 
parameter how many spanning trees we should use in 
the routing mechanism. 

We also need a cache to record the routing 
information of the shortest paths that are not included 
in any of the spanning trees, so that we can use Nix- 
Vector routing to compute them. In the cache the 
information of the source and destination addresses 
should be stored. Data structure for the cache should 
also have low space complexity and efficient lookup 
time. We choose adjacency lists of the topology graph. 
According to the characteristics of adjacency lists, the 


source node index can be found in 0(1) time. To find 
the destination node faster, the adjacency lists of each 
node are ordered by the indices of the nodes, and 
binary search is used to get the destination node index 
in 0(lgm) time, where m is the number of neighbors of 
the source node. As the topology graphs are 
undirected, the information of a pair of nodes appears 
in the cache only once, which also reduces the space 
requirement. 

Based on the description above, we present 
MTree_Nix routing mechanism. The concept of 
MTree_Nix routing mechanism is shown in Figure 1. 



Figure 1. Concept of MTree Nix routing 


According to Figure 1, lookup time for MTree_Nix 
routing should be the time for looking up the cache 
plus the lookup time for either the multiple trees or the 
Nix-Vector. The average time of routing lookup for 
MTree_Nix routing is 

^Lookup - Tcache + ^Coverage^ ^MTree +0" _ -^Coverage) ^ ^Nix-Vector ( 

where T Lookup is the average lookup time, T Cadie , r ■從 
and T Nix _ Vector are the lookup time for the cache, 
spanning trees and Nix- Vector，Pcoverage is the coverage 
percentage of the spanning trees. Since T Nix . Vector is 
much larger than 丁論沈 ， according to equation (1), the 
larger the Pcoverage ，the smaller the T Loo k up . While since 
PCoverage increases as the number of spanning trees 
increases, it can be concluded that T Loo k up will increase 
as the number of spanning trees increases. 

As is shown in Figure 1, memory requirement of 
MTreeJSfix routing includes storage space for the 
cache and spanning trees. The total space needed by 
MTreeJSfix routing is 

M MT ree _Nix = ^ MTree + ^ Cache (^) 

where MMT ree _ Nix is the total memory for MTreeJSfix 
routing, MMr ree and M Cac he are the memory for the 
multiple spanning trees and the cache. As is described 
above, the relationship between M^ree and M Cac he is 
that when we create one more spanning tree, M^ 7 > ee 
increases with a certain number of memory units, 
while Mcache decreases with a variable number of units. 
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As the number of spanning trees increases, the 
increment of coverage percentage will become smaller 
when creating a new tree. Thus equation (2) has a 
minimum, and the condition to achieve the minimum is 
that when a new spanning tree is created, the increment 
of MMTree is more than the decrement of M Cac he, or 
■版 > 崖⑽ (3) 

According to the implementation of MTree_Nix 
routing mechanism in this paper, the increment of 
memory space caused by a new tree is N storage units, 
while if the coverage percentage increases AP Coverage , 

the storage decrement of the cache is AP Coverage xN 2 /2 
units, so equation (3) becomes 

N>AP Co ^ g e><N 2 /2 (4) 

Or ^P C o,era g e< 2 /N (5) 

and the number of spanning trees k under this 
condition will lead to the lowest space requirement. 
For a certain network topology to be simulated, the 
relationship between k and AP Coverage is determinate, 

and can be calculated by a recursive algorithm. 

In order to get a better trade-off between storage 
usage and CPU time, we choose k which makes 
^coverage satisfy equation (5) as the constraint 
condition of the optimization. 

3.2. Implementation and algorithms 

Some special techniques to achieve the routing 
lookup and improve the performance of MTree_Nix 
routing are described bellow. 

Generation of spanning trees. When considering 
the generation of spanning trees, there are two key 
issues which greatly impact the shortest-path coverage 
percentage of the trees: where should the trees be 
rooted and what algorithm should be used. 
Experiments in [4] proved that short, fat spanning trees 
would incorporate a larger percentage of shortest paths 
within them. In MTree_Nix routing mechanism, we 
order the nodes by their degrees, and choose the next 
node with the highest degree as the root of the new 
spanning tree. In order to minimize their height, the 
spanning trees are generated using a simple breadth- 
first search algorithm. 


Modification of Nix-Vector, in MTreeJSfix routing, 
the method of looking up a routing state is based on 
either spanning trees or Nix-Vector, so we cannot 
compute the neighbor-index vector when a new packet 
is generated, instead, the computation should be put off 
until the simulator determines that Nix- Vector routing 
should be used by checking the cache when the packet 
needs to be routed at the first hop. 

Carrying routing information within the packet 
header, when looking up routing states in the spanning 
trees, if the index of the spanning tree to be used has 
been determined, the simulator saves the index in the 
packet header, just as the neighbor-index vector in Nix- 
Vector routing. Then every time the packet is routed 
after that, the simulator does not need the computation 
of checking the cache and choosing the spanning tree 
with the shortest path length, so that much computation 
time is saved. 

Algorithms of MTreeJSfix routing computation and 
lookup are given in Figure 2 and 3. 

Suppose N is the size of the network topology, 
and the next node index of maximum degree is saved 
in node—max—degree. 
procedure ComupteMTree_Nix 
sort nodes ordered by degree; 
compute shortest-path lengths in flat routing; 
while TRUE do 


BF S(node max degree ); 

Mo 丽 ge =Com P are _P at Wength ( 她，伽 ); 


if AP r 


Coverage 


<11N then 


break; 


end if 


end while 


end procedure 


Figure 2. Algorithm for routing table 
computation of MTree Nix 
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Suppose that the header of the packet is saved in pkthdr, in which the information of 
source and destination nodes is stored. The index of current node is represented by this, k 
represents the number of spanning trees, and all the trees are stored in Tree—Route[k]• 


procedure LookupRouting 

if nix vector is saved in pkthdr then 
nexthop = Extract(w /x-vector); 
return nexthop; 
end if 

if tree id is saved in pkthdr then 

nexthop=l^ook\ipTree(pkthdr->TreelD, this, pkthdr->dsty, 
return nexthop; 
end if 

IsFound = LookupCache(pA:// 2 (ir- > src, pkthdr->dsfy, 
if IsFound then 

ComputeNixVector(); 
nexthop = Extract(« /x-vector); 
save nix vector into packet header; 
return nexthop; 

else 

for i from ^ to A ： do 

nexthop=l^ook\xpTYQQ{i, pkthdr->src, pkthdr->dsf)\ 
get tree id with the shortest path length; 

end for 


save tree id into pkthdr- > TreelD; 
return nexthop; 
end if 

end procedure 

procedure LookupTree( TreelD, SrcID, DstID) 
src = SrcID; 
dst = DstID; 

Tree = Tree—Route [TreelD] •， 
while dst <> root do 

if Tree [dst]->parent = src then 
return dst, 
end if 

dst = Tree[dst]->paren t; 

end while 

return Tree [src] ->parent., 

end procedure 


Figure 3. Algorithm for routing states lookup of MTree Nix 


4 . Performance 

4.1. Complexity analysis 

According to the description of MTree_Nix routing 
mechanism in section 3 and equation (1) and (2), the 
storage space requirement of MTreeJSfix routing is 


0{kxN+(\-p)xN 2 1 A) 

and the lookup time is 

0(\gNpxkxlgNp)x(NE)). 

Table 1 lists the space and time complexity of 
MTreeJSfix routing and other mechanisms mentioned 
in section 2. 


Table 1. Space and time requirement of different routing mechanisms 


Methods 

Storage space 

Lookup time 

Flat 

0(N 2 ) 

0 ⑴ 

STree_Flat 

0(N + (l-p)xN 2 ) 

0(lgN + (l-p)xN 2 ) 

MTree 一 Flat 

0(kxN-^(\-p)xN 2 ) 

0(kx\gN + (\-p)xN 2 ) 

Nix- Vector 

0 

0(N^ E) 

MTreeJSfix 

0(kxN + (l-p)xN 2 /4) 

a(lgAM pxkx\gN-\ (1- p)x(N^ E)) 


Through table 1 we can conclude that MTreeJSfix 
has better time and space complexity than STree Flat 
and MTree Flat, and much better space complexity 
than Flat routing. It also has much better time 
complexity than Nix- Vector, with the space complexity 
increasing not so much. 

4.2. Experimental results 


To investigate how our approach performs in a real 
simulator, we integrated MTreeJSfix routing 
mechanism into well-known NS-2[7, 8], performed 
benchmarks, and compared the results with Flat, 
STree_Flat, MTree_Flat and Nix-Vector. In this 
section, we describe details of the experiments and 
analyze the experimental results. 
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Figure 5. Number of trees to achieve the 
coverage percentage in Figure 4 

size increases, the coverage percentage decreases, with 
the number of spanning trees increasing. 

Figure 6 shows the coverage percentage changing 
with different average node degree of a fix topology 
size of 1,000. Figure 7 shows the number of spanning 
trees to achieve the coverage percentage reported in 
Figure 6. The average node degree varies from 4 to 14. 

From Figure 6 and 7 we can see that the coverage 
percentage decreases as the average node degree 
increases, and the number of spanning trees to achieve 
the coverage percentage increases. This is expected, as 
the average node degree rises, there is an increasing 
number of shortest paths that share fewer edges, thus 
the set of spanning trees is less likely to cover as many 
routing states in the general routing table as the 
number of edges in any spanning tree. 


We ran our experiments on a PC with a Pentium IV 
1.0GHz CPU, 2 GB RAM, and running RedHat Linux 
operating system. 

The simulation topologies were built using a 
synthetic topology generator NEM[9], which can 
generate topologies with different parameters such as 
topology size and average node degree. In each 
simulation topology, we created 10,000 TCP 
connections between random pairs of nodes, and send 
1,040 bytes in each TCP connection. We repeated each 
experiment 5 times, and use the average as the 
experimental results. 

4.2.1. Coverage percentage. The performance of 
MTree_Nix routing mechanism highly depends on the 
percentage of routing states covered by the spanning 
trees. We computed the coverage percentage and the 
number of spanning trees under the condition of 
equation (5) on topologies with different size and 
average node degree. 

The characteristics of simulation topologies greatly 
impact the coverage percentage. Intuitively, topologies 
with larger size and higher average node degree will 
get lower coverage percentage, and need more 
spanning trees. The results of two sets of experiments 
below prove this. 

Figure 4 shows the coverage percentage of different 
topology size, and Figure 5 shows the number of 
spanning trees to achieve the coverage percentage. In 
the experiments we generate different size of 
topologies from 200 to 3,000 nodes, with an average 
node degree of 2.6. We can see that as the topology 


Figure 4. Coverage percentage as a 
function of topology size 


Figure 6. Coverage percentage with 
different average node degree 
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Figure 10. Simulation time with different 
topology size 
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Figure 9. Memory usage with different 
topology size 

Figure 10 shows the simulation time with different 
topology size. Like the memory usage, the difference 
of simulation time between different routing 
mechanisms comes mainly from the routing lookup. 
According to the graph, STtree Flat routing requires 
more than ten times of simulation time than the other 
mechanisms, because as the topology size rises, the 
number of routing states that a spanning tree can cover 
becomes much smaller, and in each lookup, the 
simulator needs to search the partial general routing 
table with the space complexity of almost 0{N 2 ). Flat 
routing mechanism has the shortest simulation time, 
and MTree_Nix routing needs about 20% more time 
than Flat routing, and 85% less than Nix-Vector 
routing, just as is expected. 


is no routing table necessary at all. MTree_Nix routing 
requires only 1% more memory than Nix-Vector, and 
MTree_Flat routing mechanism needs a little more 
than MTree_Nix. The memory usages of STree_Flat 
routing and Flat routing are much more than the other 
three because the routing tables of them are much more 
larger. 



Nunber of trees 



Average node degree 

Figure 7. Number of trees to achieve the coverage 
percentage shown in Figure 6 

4.2.2. Simulation performance. The performance of a 
routing mechanism in simulation can be indicated 
mainly by three parameters: pre-computation time, 
memory usage and simulation time. In this section we 
describe the experimental results of these parameters 
with different topology size and average node degree. 

Figure 8 shows the pre-computation time with 
different topology size, with the coverage percentage 
and the relevant number of spanning trees reported in 
Figure 4 and 5. As is expected, with the topology size 
increasing, pre-computation time increases, too. 
However, it is rather faster compared with the regular 
simulation time. 

Pre-conputation tine 
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Figure 8. Pre-computation time with 
different topology size 

The result of the memory usage measurement of 
different routing mechanisms is shown in Figure 9. As 
the size and connectivity of simulation topologies are 
all the same, the difference of memory usage between 
different routing mechanisms comes mainly from the 
routing table storage. According to the graph, Nix- 
Vector routing needs the smallest memory since there 
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Figure 11 shows the simulation time of difierent 
routing mechanisms with different average node 
degree of the same topology size. Since the time of 
STree Flat routing is of too much difference compared 
with the others, here we didn’t show the results of it. 
The graph shows that the time of MTree_Nix routing is 
the closest to the Flat routing mechanism, and much 
less than Nix- Vector and MTree_Flat routing. 

Sinulation tine 


Average node degree 

Figure 11. Simulation time with different 
average node degree 

According to the experimental results and analysis 
above, the memory usage and simulation time of 
MTree_Nix routing mechanism are both close to the 
optimization, and MTree_Nix routing mechanism 
comes to a better trade-off than the current routing 
mechanisms. 

5. Conclusions and future work 


Routing mechanism is one of the most important 
factors which impact the performance of simulation. 
This paper presents MTree_Nix routing mechanism, 
which maintains certain number of spanning trees as 
the base routing table, and uses Nix-Vector routing to 
compute on demand the routing states that can’t be 
covered by any spanning tree. By analyzing the space 
and time requirement, we obtain the constraint 
condition to achieve the best trade-off between space 
and time in MTree_Nix routing. MTree_Nix routing 
mechanism integrates the advantages of both the static 
and on-demand routing, and comes to a better trade-off 
between memory usage and lookup time than the 
current routing mechanisms. Based on the 
experimental results, MTreeJSlix routing mechanism 
adds only about 1% more memory usage than Nix- 
Vector routing, and achieves about 85% decrement of 
simulation time than Nix-Vector. 

Our implementation of MTreeJSlix routing 
mechanism in NS-2 is somewhat quick and dirty, and 
we care more about the method of integrating the static 
and on-demand routing mechanisms in this paper. In 


the future we will improve MTreeJSlix routing by 
proposing more efficient algorithm of choosing tree 
roots and so on. Besides, parallel and distributed 
network simulation is an efficient way to enable 
simulation of large-scale networks. Later we expect to 
extend MTree_Nix routing to parallel and distributed 
network simulators such as PDNS. 
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ABSTRACT 

Domain-oriented sentiment lexicons are widely used for fine¬ 
grained sentiment analysis on reviews; therefore, the automatic 
construction of domain-oriented sentiment lexicon is a 
fundamental and important task for sentiment analysis research. 
Most of existing construction approaches take only the kind of 
relationships between words into account, which makes them 
have a lot of room for improvement. This paper proposes an 
adapted information bottleneck method for the construction of 
domain-oriented sentiment lexicon. This approach can naturally 
make full use of the mutual reinforcement between documents 
and words by fusing three kinds of relationships either from 
words to documents or from words to words; either homogeneous 
or heterogeneous; either within-domain or cross-domain. The 
experimental results demonstrate that proposed method could 
dramatically improve the accuracy of the baseline approach on the 
construction of out-of-domain sentiment lexicon. 1 

Categories and Subject Descriptors 

1.2.7 [Artificial Intelligence] : Natural Language Processing; 

H. 3.3 [Information Storage and Retrieval]: Information Search 
and Retrieval; 1.5 [Pattern Recognition]: Applications 

General Terms 

Algorithms, Performance, Experimentation 

Keywords 

Sentiment Analysis; Opinion Mining; Information Retrieval 

I. INTRODUCTION 

In the Web2.0 era, the Internet turns from a static information 
media into a platform for dynamic information exchanging, on 
which people can express their views and show their 
individualities. More and more people are willing to record their 
feelings (blog), give voice to public affairs (news review), express 
their likes or dislikes on products (product review), and so on. In 
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not made or distributed for profit or commercial advantage and that 
copies bear this notice and the full citation on the first page. To copy 
otherwise, or republish, to post on servers or to redistribute to lists, 
requires prior specific permission and/or a fee. 
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the face of the increasing volume of sentimental information 
available on the Internet, there is a growing interest in helping 
people to better find, filter, and manage these resources. 

Automatic sentiment analysis [l][9][13][17][19-26] could play 
an important role in a wide variety of flexible and dynamic 
information management tasks. For example, with the help of 
sentiment analysis system, in the field of public administration, 
the administrators could receive the feedback on one policy in a 
timelier manner; in the field of business, manufacturers could 
perform more targeted updates on products to improve the 
consumer’s experience. 

In order to infer sentiment orientation of reviews in different 
domains, one of the commonly-used methods is to build a general 
sentiment lexicon. However, it is an impossible task to build a 
general sentiment lexicon that could perform well in every 
domain, because sentiment expression often behaves with strong 
domain-specific nature [2]. In other words, in each different 
domain, the sentiments are apt to be expressed by their own 
domain-specific features. For example, “rise” and “rebound” are 
often used to express positive sentiment for stock review; while 
“luxury” and “classical” are often employed to convey positive 
sentiment for house review. This so-called domain-specific nature 
makes it an important job to design an automated approach that 
could build a sentiment lexicon for each new domain. 

In this paper, we assume a typical application scenario: We 
have a labeled document set D t and a sentiment lexicon W t (a 
word list with sentiment polarity label) from one domain which is 
called in-domain, and another document set D 0 from a related but 
different domain which is called out-of-domain. The latter is 
unlabeled and we want to build a specified sentiment lexicon W 0 
for it can make full use of in-domain knowledge. 

So far, two kinds of approaches have been proposed to deal 
with this problem. One is based on a thesaurus. This method 
utilizes synonyms or glosses of a thesaurus to determine polarity 
of words [5] [9] [10] [12]. The second approach exploits raw corpus. 
Polarity is decided by using co-occurrence in a corpus. This 
approach is based on a hypothesis that polar terms conveying the 
same polarity co-occur with each other. Typically, a small set of 
paradigm polar terms are prepared, and new polar terms are 
detected based on the strength of co-occurrence with the seeds [8] 
[11][17]. 

Most of existing approaches take the homogeneous 
relationship between words (i.e., relationship between out-of¬ 
domain words and in-domain words (WW inter -Relationship)) into 
account, while ignore the other two kinds of heterogeneous 
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relationships (i.e., relationship between out-of-domain words and 
out-of-domain documents (WD intra -Relationship), relationship 
between out-of-domain words and in-domain documents (WD inter - 
Relationship)). Consequently, there is a room for improvement 
and it is still a challenge to find more beneficial guidance from in¬ 
domain data for the construction of out-of-domain sentiment 
lexicon. 

To address this issue, we aim to take into account all of the 
three kinds of relationships: WD intra -Relationship, WW inter - 
Relationship, and WD inter -Relationship. In this work, we propose 
an iterative reinforcement approach to implement the above 
inspiration. The main idea is to adapt information bottleneck 
method [15] by incorporating the three kinds of relationships. As 
a result, our approach could be considered as a sentiment-lexicon- 
construction version of information bottleneck method. 

To investigate the effectiveness and robustness of this 
approach, we conduct an extensive experiment on three domain- 
specific sentiment corpora, including electronic product reviews, 
hotel reviews, and stock reviews. The experimental results 
indicate that proposed approach can dramatically improve the 
performance of the baseline approach on the construction of out- 
of-domain sentiment lexicon. 

2. RELATED WORK 

In this section, we review several prior works mostly related to 
our work, including sentiment lexicon construction, and 
information bottleneck method. 

Most of previous methods about lexicon construction use term 
similarity and some paradigm terms to construct sentiment 
lexicon. The basic observations underlying these methods are 
quite different from each other. However, these methods could 
roughly be classified into two categories in terms of the manner of 
obtaining term similarity, the first kind of approaches based on 
the thesaurus, and the second kind of approaches based on corpus. 

2.1 Thesaurus Based Approach 

Kamps et al. [10] built lexical network by linking synonyms 
provided by a thesaurus, and term polarity was defined by the 
distance from seed words (“good” and “bad”）in the network. This 
method relies on a hypothesis that synonyms have the same 
polarity. Hu and Liu [9] used similar lexical network, but they 
considered not only synonyms but also antonyms. Kim and Hovy 
[12] proposed two probabilistic models to estimate the strength of 
polarity. In their models, synonyms are used as features. Esuli and 
Sebastiani [5] [6] utilized glosses of words to determine polarity. 

Compared with our approach, the drawback of using a 
thesaurus is the lack of scalability. It is difficult to handle such 
words that are not contained in a thesaurus (e.g. newly-coined 
words or colloquial words). 

2.2 Corpus Based Approach 

Another approach is based on an idea that polar terms 
conveying the same polarity co-occur with each other in corpus. 
Turney’s work [17] is one of the most famous works that 
discussed learning polarity from corpus. Tumey determined 
polarity value based on co-occurrence with seed words 
(“excellent” and “poor”). The co-occurrence is measured by the 
number of hits returned by a search engine. The polarity value 
proposed by [17] is as follows. 


hits(c NEAR excellent)hits(poor) 

I。g hits(c NEAR poor)hits (excellent) 

where hits(q) means the number of hits returned by a search 
engine when query q is issued. NEAR means NEAR operator, 
which enables to retrieve only such documents that contain two 
queries within ten words. 

The basic assumption of Turney’s method is that sentiment 
terms of similar orientation tend to co-occur at the document level. 
Gamon and Aue [7] extended Turney’s method by adding one 
assumption that sentiment terms of opposite orientation tend not 
to co-occur at the sentence level. 

Hatzivassiloglou and McKeown [8] constructed lexical 
network and determine polarity of adjectives. Although this is 
similar to the thesaurus-based approaches, they built the network 
from intra-sentential co-occurrence. Takamura et al. built lexical 
network from not only such co-occurrence but also other 
resources including a thesaurus [16]. They used spin model to 
predict polarity of words. 

Popescu and Etzioni [14] applied relaxation labeling to 
polarity identification. This method iteratively assigns polarity to 
words by using various features including intra-sentential co¬ 
occurrence and synonyms of a thesaurus. 

Kanayama and Nasukawa [11] used both intra- and inter- 
sentential co-occurrence to learn polarity of words and phrases. 
Their method covers wider range of co-occurrence than other 
work such as [8]. 

2.3 Information Bottleneck Method 

The information bottleneck method [15] provides an 
information theoretic framework, for extracting features of one 
variable that are relevant for the values of another variable. For 
instance, in the process of word clustering, the relationship 
between documents and words is taken into account, which 
motives us to take it as the kernel of our approach. Because the 
in-domain knowledge is not utilized in the traditional IB method, 
so we adapt the method to integrate these in-domain knowledge, 
which will be illustrated in detail in section 3, and the 
experimental result shows the effectiveness of the extension. 

3. PROPOSED ALGORITHM 
3.1 The Problem 

Let D t be the set of in-domain documents with sentiment 
polarity labels, W t be the sentiment lexicon labeled from D t , and 
terms in are all labeled as positive or negative. D 0 be the set of 
out-of-domain data without polarity labels. In our task, we 
attempt to design a feasible approach to construct a domain- 
specific sentiment lexicon W Q for the out-of-domain data. More 
precisely, we want to group the out-of-domain sentiment words 

W 0 into 2 clusters (i.e., positive or negative). Let D o denote the 

out-of-domain documents clustering, and W Q denote the word 
clusters. Then the word cluster function C w and document cluster 

function C D can be defined as 
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C w (w) = w,where we wawg W q (l) 


C D (d) = d, where d edAd e Do (2) 


where w represents the word cluster that w belongs to and d 


represents the document cluster that d belongs to. 

Since the out-of-domain data are all unlabelled, the key point 
of our work is to investigate how to utilize the knowledge, i.e. D t 
and W], available from the in-domain data in an efficient way. 

Proposed approach is intuitively based on the following 
assumptions: 

Assumption 1: A document should be positive (or negative) if 
it contains many positive (or negative) words, and a word should 
be positive (or negative) if it appears in many positive (or 
negative) documents. 

Assumption 2: Even though the two domains may be under 
different distributions, we are able to identify a common part 
between them (e.g. the same word behaves the same orientation). 

The first assumption makes use of mutual ‘recommendations’ 
between documents and words. Under the second assumption, we 
can extract and propagate knowledge and clues from in-domain 
data to out-of-domain data to guide the clustering. In more detail, 
the following three kinds of relationships are fused in the 
proposed approach: 

WDj ntra -Relationship : it reflects the heterogeneous 
relationship between out-of-domain words W Q and out-of-domain 
documents D 0 . 

WWi nter -Relationship: it reflects the homogeneous 
relationship between out-of-domain words W Q and in-domain 
words W t . 


WD inter -Relationship : it reflects the heterogeneous 
relationship between out-of-domain words W Q and in-domain 
documents D h 


In this study, the three kinds of relationships are all measured 
in a unique information theoretic framework, which will be 
clearly mathematically defined in section 3.3. Figure 1 gives an 
illustration of the relationships. 



There are two planes in this figure, the upper one denotes the 
in-domain data and the lower one denotes the out-of-domain data. 
In the in-domain plane, the blobs circled by a solid line denote 
documents and the solid nodes in each blob denote the terms 
within the document. Since we can obtain the polarity of the in¬ 
domain data, we use red and blue solid lines to denote the positive 
and negative sentiment respectively (for documents and terms). 
For the out-of-domain data, we use dotted lines and hollow nodes 
to denote the polarity of documents and terms, respectively. 

From our observation, we can utilize three kinds of 
information to guide identification of the polarity of out-of¬ 
domain terms, which are figured by gray bidirectional arrow lines, 
including one homogeneous relationship (WW inter -Relationship) 
and two heterogeneous relationships (WD inter -Relationship and 
WD intra -Relationship). 

In the process of the construction of out-of-domain sentiment 
lexicon, we fuse the three relationships to group the out-of¬ 
domain words into two disjoint subgroups, and utilize the 
sentiment labels obtained from in-domain data to infer the 
semantic orientation of out-of-domain words, simultaneously. 

3.2 Information Bottleneck Method 

The information bottleneck method (IB) was proposed by 
Slonim and Tishby [15]. According to Shannon's information 
theory [4], for two random variables X, Y, the mutual information 
I(X;Y) between the random variables X, Y is given by a symmetric 
function: 


I{X-,Y)= Y, p(x)p(y\ x)log PK (3) 

x.X,y S Y P(y) 

which is the only consistent statistical measure of the information 
that variable X contains about variable Y (and vice versa). 

The IB method is based on the following simple idea. Given the 
empirical joint distribution of two variables, one variable is 
compressed so that the mutual information about the other 
variable is preserved as much as possible. The method can be 
considered as finding a minimal sufficient partition or efficient 
relevant coding of one variable with respect to the other one. 
Roughly speaking, some of the mutual information will be lost in 
the process of compression, e.g. /(C, 7) < I(X, 7) (C is a 
compressed representation of X). This problem can be solved by 
introducing a Lagrange multiplier p , and then minimizing the 
function: 


L[p(c\x)] = I(C,X)-j3I(C,Y) (4) 

The information bottleneck principle determines the distortion 
measure between the points x and c to be the Kullback-Leibler 
divergence [4] between the conditional distributions p(y\x) and 


DMyl^Wpiylc)} = E,.^I ^)io g ^4 (5) 

- p(y I c) 

The single positive (Lagrange) parameter determines the 
‘softness’ of the classification. When ^ co , there is a simple 
implementation of the information bottleneck method, restricted 
to the case of “hard” clusters. In this case, every xe X belongs to 


precisely one cluster ce C. 
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The algorithm starts with a trivial partitioning 
intosingleton clusters, where each cluster contains exactly one 

element of X. At each step we merge two components of the 
current partition into a single new component in a way that 
locally minimizes the loss of mutual information about the 
categories, given in I{C\Y). The decrease in the mutual 
information I(C;Y) due to one merger is defined by 

焉三 I(C before ,Y)- I{C afier ,Y) ⑹ 

where I(C before ,Y) and I(C after ,Y) are the information values 

before and after the merger, respectively. 

By introducing the information optimization criterion, the 
resulting similarity measure directly emerges from the analysis. 
The algorithm is now very simple. At each step the IB algorithm 
perform “the best possible merger” ， i.e.，merge the clusters 
{c^Cj} which minimize SI^c^Cj). For more details, please refer 

to [15]. 


f(d 0 ,w 0 )=p(d 0 ,w 0 ) ( 8 ) 

f(D 0 ,W 0 ) denotes the joint probability distribution of D a and W Q 

under co-clustering (D 0 ,W Q ) that 

A A A A A 

f(d 0 ,w 0 ) = p(do,Wo)p(d a I d 0 )p{w 0 1 w 0 ) 

= p(d 0 , W .) PWP ^ ) (9) 

p{do) p(Wo) 

where d o ed 0 and w Q ew Q , where d Q denotes an out-of-domain 

document cluster, and w 0 denotes an out-of-domain word cluster. 

Definition 2: Let g{D b W 0 ) denote the joint probability 
distribution of Z) z and W Q . That is 

g(d i ,w o ) = p(d n w o ) ( 10 ) 


3.3 Adapted Information Bottleneck Method 
for In-domain Knowledge 

In traditional information bottleneck method, when clustering, 
only the relationship between out-of-domain documents and 
words (i.e., I(C;Y), where C denotes C w and Y denotes D a ) is 

taken into account. In order to integrate more in-domain 
knowledge to implement the task of out-of-domain sentiment 
lexicon construction, in the rest of this section, we will adapt the 
traditional IB algorithm to fit our task. 

In order to fuse the three kinds of relationship mentioned in 
section 3.1, we use I(W 0 ;D 0 ) to measure WD intra -Relationship, 
use IiW^W^ to measure WWi nter -Relationship, and 
use IQV^D^ measure WD inter -Relationship. Consequently, we 
adapt the loss function of the traditional IB algorithm by the 
following form: 


I{D 0 -W 0 )-I{D 0 -W 0 ) 


-\~cx • 


I{D-W 0 )-I(D-W 0 ) + I(W-W 0 )~I(W-W 0 ) 


⑺ 


where the trade-off parameter CC is non-negative that represents 
the impact of in-domain knowledge on clustering. 

The traditional IB algorithm is a clustering approach, since it 
can group out-of-domain terms together in an elegant way. 
However, it is insufficient because it only uses WD intra - 
Relationship to identify the polarity of terms. By our extension, 
i.e., through usage of in-domain knowledge, we can utilize the 
polarity of in-domain data to identify the polarity of out-of¬ 
domain terms. 

For the sake of being easy to implement, we need to transform 
the loss function in Equation (7) into another form that is 
represented by KL-divergence. Before transforming the loss 
function, let us first define some probability mass functions. 

Definition 1 : Let f[D 0 , W 0 ) denote the joint probability 
distribution of D 0 and W Q . That is 


denotes the joint probability distribution of D t and W Q 


under the word clustering W Q that 


g((/,.,w 0 ) = p(d i ,Wo)p(w a \wo) 

=p( di , wo )^ ⑼ 

P(Wo) 


We can also define g(JVi ， JV 0 ) and gQV^WJ in a similar way. 

Theorem 1: for a fixed clustering, we can rewrite the loss 
function with the Kullback-Leibler divergence, 

*〔/( w -，( W )+ 〔职 
= 〜〔 /( 狀 )"/( 狀 )) 



( 、 


/ Y 

Dkl 

洲凡 )|| 洲凡 ) 




l J 


v 


( 12 ) 

The detailed proof of Theorem 1 is given in the Appendix. 

As a result, our iterative reinforcement approach is derived. 
This algorithm iteratively searches a clustering for the out-of¬ 
domain data (documents and words), and assigns sentiment 
polarity labels to the word clusters to complete the sentiment- 
lexicon building task. 

As shown in Figure 2, in each update, the algorithm chooses 
the best cluster to minimize the loss function. After the iteration, 
we can get the out-of-domain word clusters with sentiment 
polarity label. 
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Input: A labeled in-domain document set an unlabeled out-of- 
domain document set D 0 \ a labeled in-domain word set Wi, an 
unlabeled out-of-domain word set W 0 \ initial clustering 



Initialize the joint probability distribution f 9 f 9 g and g based 
on Equation (8) ， (9) ， (10) ，（ 11) ， respectively. 

1 . t ^ — 1 

2. Repeat 

a. compute the document cluster: 

CH{d) = argmin D KL {f- l \d 0 ,W 0 )\\ f(d 0 ， W。)) 

do 

A (/) 

b. update the probability distribution f based on 

a(0 A (卜 1) 

C^\ C^ _1) and Equation (9). C^ = C^ _1) and g =g 

c. compute the word cluster: 

C ( ；： l \w Q ) = argmin dJ f (t \D 0 ,W 0 )\\ f(D o ， W。) 

f A A \ 

+ cc-D a 

V / 

+ a-D KL [g (l \W i ,W 0 )\\g(D i ,W 0 ) 

V / 

A 0 + 1) 

d. update the probability distribution g based on C^ +1) and 

A (t + l) A (0 

Equation (11). / = / and C^ +l) = 

q. t ^ — t -\- 2. 

3. until (C^ = C^； 1} and = C^: 1 )) 

Output the partition functions and 

Figure 2: Pseudo-code of the adapted information bottleneck 
method 


D {^P\ + (1 - ^)Pl 11 知 1 + (1 - 义 )《2 ) 

=(M W + (1 _ 軸 ))l 0 g M(x) + ( 卜触 ) 

V 1 2 ’ /L^(x) + (1-A)^ 2 (x) 

(x) log # 1 。) + (1 - A) p 2 (x) log—^ 义 ) 夕 2 ( X ) 

(i -乂刷 

= 儿 D(A II 仏 ） + (1 - ^-)D{p 2 Ik 2 ) 


The loss function is a sum of Kullback-Leibler divergences, 
and in particular is non-negative. Moreover, from lemma 2.1, we 
verify that the Kullback-Leibler divergence is (strictly) convex 
with respect to each of its arguments (for more details, please 
refer to [4]). Since a sum of convex functions is also convex, and 
a>0, the function defined in Equation 12 is non-negative and 
convex. 


Moreover, it is easy to see that in the process of iterating, the 
changes before and after all clustering are all non-negative. 
Hence, the iterating is equivalent to reducing the loss function. 

Now we can conclude that through the iterative update, 
proposed algorithm converges to a (local) minimum. Note that, 
although the algorithm is able to minimize the loss function value 
in Equation 12, it is only able to find a locally minimal one. 
Finding the global optimal value is NP-hard. 


4. EXPERIMENTAL SETUP 

In order to evaluate the properties of the proposed algorithm, in 
this section, we describe our experiments and the data used in 
these experiments. Some researchers conducted sentiment 
classifier transferring research on English corpus, which are 
obtained from one web site, and are all product reviews. In order 
to highlight the domain-specific nature of sentiment expression, 
we collect reviews not only from different web sites, but also 
from domains with less similarity. Aimed at Chinese applications, 
we conduct the experiments based on the specialty of Chinese 
language, and verify the performance on Chinese web reviews. 
However, the main proposed approach in this paper is language 
independent in essence. 


For more preciseness, in the following theorem, we will prove 
the convergence of proposed algorithm. 

Theorem 2: Iterating over the equations given in Figure 2 
converges to a stationary fixed point of the loss function 
(Equation 12). 

Proof: The general idea of the proof is to show that updates 
defined by proposed algorithm can only reduce the loss function, 
and since the loss function is shown to be convex, we are 
guaranteed to converge to a (locally) optimized solution. 

Lemma 2.1: D{p\\q) is convex in the pair (p,q); that is, if (puq\) 
and (p 2 ， q 2 ) are two pairs of probability mass function, then 

D(Ap l +(\-A)p 2 ||私 + (1- 桃 ) 

(13) 

<AD( Pl \\ qi ) + (\-A)D(p 2 \\q 2 ) K } 

Proof: 


4.1 Data 

We use three domain-specific datasets, i.e., Htl 2 , Elec 3 , and 
Sto 4 . All of them are downloaded from the Internet, which 
including comments on hotel (from www.ctrip.com), electronics 
(from detail.zol.com.cn) and stock (from blog.sohu.com/stock), 
respectively. The detailed information is illustrated in Table 1. 


Table 1: the detailed information of corpus 


Domain 

Positive 

Negative 

Total 

Hotel 

2000 

2000 

4000 

Electronics 

1054 

554 

1608 

Stock 

364 

683 

1047 


We use ICTCLAS (http://ictclas.org/), a Chinese word 
segmentation software, to extract sentiment words from these 



4 http://www.searchforum.org.cn/tansongbo/corpus/Sto-IV.rar. 


115 



texts. In the usage of the part-of-speech tagging function provided 
by this software, we take all adjectives, adverbs and adjective- 
noun phrases as candidate sentiment words. 

After removing the repeated words and words with ambiguity, 
we get a list of words in each domain. Then, we manually label 
the semantic orientation of every word, and use these labeled 
word lists as the sentiment lexicons in the following experiments. 

In order to highlight the nature of domain-oriented sentiment 
lexicon, we distinguish the domain-dependent sentiment words 
from the domain-independent sentiment words in the process of 
labeling. We take the words only occur in one domain or the ones 
show reverse orientation among different domains as domain- 
dependent sentiment words; we take the words occur in more than 
one domain and behave with the same orientation as domain- 
independent sentiment words. 

To justify the reliability of this labeling process, we ask three 
annotators to label one domain data, respectively. Three 
annotators had pair-wise agreement scores (Cohen’s Kappa score 
[3]) of 80.10%, 83.87% and 85.96%, which is high enough to be 
considered consistent. Table 2 presents the detailed information of 
labeled sentiment lexicon of each domain. 


Table 2: the detailed information of labeled sentiment lexicon 
of each domain 


Extracted 

Total 

Non-Repeated 

Sentiment 

(before 

Pos 

Neg 

Words 

pruning) 

Independ 

Depend 

Independ 

Depend 

Hotel 

93616 

253 

93 

199 

59 

Electronics 

58967 

298 

124 

242 

90 

Stock 

79560 

343 

89 

567 

112 


4.2 Comparison Method 

Since proposed method aims to construct domain-oriented 
sentiment lexicon, we should compare it with existing word 
semantic orientation inferring methods. Most of these approaches 
infer word semantic orientation by measuring the relationship 
between words, which can be either corpus-based [17][18] or 
knowledge-based [6] [10], Since the proposed approach is also 
corpus-based, for justness, we take the PMI method [18], 
improved PMI (SM+SO) method [7] and lexicon extension (LE) 
method [11] as the baseline methods, and compare the 
performance between these methods and our method. 

The PMI method takes some labeled sentiment words as 
paradigm words to infer the semantic orientation of unlabelled 
words. In the implementation, we use the common part (sentiment 
words) of in-domain data and out-of-domain data as the paradigm 
words of the PMI method. 

For SM+SO method, we set up the experimental environment 
as the default configurations as [7]. 

Since the LE method is an unsupervised method, we take the 
common part (sentiment words) between in-domain data and out- 
of-domain data as the origin lexicon, and set up the experimental 
environment as the default configurations as [11]. 

4.3 Evaluation Metrics 

We use accuracy to evaluate the performance of proposed 
method. Let C be the clustering function which maps from word 
(or document) to its true sentiment label, and F be the function 


which maps from word to its prediction sentiment label that given 
by the sentiment inferring methods. The accuracy is defined as: 

血臓 y ⑽ = I { + W C (咖屬 . 


5. EXPERIMENTAL RESULTS AND 
DISSICUSSION 

5.1 Performance Comparison 

Table 3 and 

Table 4 report the performance comparison between proposed 
method and the three baselines on six tasks for domain- 
independent words and domain-dependent words. 


Table 3: Accuracy of domain-independent sentiment word 
classification 



Baselines 

Proposed 


PMI 

SM+SO 

LE 

Method 

Elec—Htl 

76.6 

77.5 

80.7 

88.1 

Elec—Sto 

69.7 

68.3 

71.3 

73.6 

Htl—Elec 

74.1 

76.7 

83.4 

79.7 

Htl—Sto 

85.4 

88.0 

86.7 

84.8 

Sto—Elec 

70.5 

73.3 

81.3 

76.7 

Sto—Htl 

67.9 

71.2 

81.8 

84.8 

Average 

74.4 

75.4 

80.8 

81.2 


Table 4: Accuracy of domain-dependent sentiment word 
classification 



Baselines 

Proposed 


PMI 

SM+SO 

LE 

Method 

Elec—Htl 

68.4 

73.5 

73.2 

87.5 

Elec—Sto 

57.8 

60.6 

63.1 

73.2 

Htl—Elec 

72.1 

75.4 

76.3 

75.9 

Htl—Sto 

73.7 

76.4 

78.1 

82.2 

Sto—Elec 

70.6 

73.3 

73.4 

74.1 

Sto—Htl 

68.8 

71.2 

73.6 

82.8 

Average 

68.5 

71.7 

72.9 

79.2 


By the comparison between the two tables, we can find that 
nearly all approaches show better performance on domain- 
independent tasks than on domain-dependent tasks, which 
indicates the difficulty of domain-oriented sentiment lexicon 
construction. 

From 

Table 4, we can find that proposed method shows better 
performance on nearly all of the data sets. In consideration of that 
the baseline methods take only the relationship between out-of- 
domain words and in-domain words (WWi nter -Relationship) into 
account, while neglect the other two kinds of relationship 
(WD int er-Relationship and WD intra -Relationship), the full use of 
the three kinds of relationship may contributes to the performance 
of proposed method. 

The experimental results show that the classifications on 
electronics and stock achieve worse performance than that of 
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hotel, because the two domains have fewer domain-independent 
words, which weakens the effect of WD intra -Relationship. 

Seen from these experimental results, a question may arise: 
why does the PMI method perform so poorly that it seems to 
disaccord the conclusion drawn by [18]. 

A reasonable explanation is that the PMI method is corpus- 
based, and the corpus size influences its performance very much. 
The experimental results provided by [18] is obtained by making 
use of search engine, and taking the whole Internet as the corpus. 
While the corpus in our experiment is relatively small, which may 
brings much noise and makes the co-occurrence information 
sparse. These factors may lead to the poor performance of the 
PMI method. From another perspective, this also shows the 
robustness of proposed method on relatively small-scaled corpus. 

5.2 Convergence 

Since proposed method is an iterative algorithm, it is an 
important issue to show the convergence property of proposed 
method. Theorem 2 has proven the convergence of our method 
theoretically. In this section, we will show the convergence of our 
method empirically. Figure 3 depicts the accuracy curves as 
functions for each iteration on six tasks for inferring sentiment for 
domain-dependent words, electronic-to-hotel, hotel-to-electronic 
and stock-to-hotel. 



after each iteration 


From this figure, we can see that proposed method 
convergences very fast, when the iteration is over 5, all of the 
three curves tend to be stable. This shows the convergence of our 
method empirically. On this observation, we think it is sensible to 
consider that “10” is enough for our method to achieve a 
satisfactory solution. 

5.3 Varying In-Domain Data Size 

To investigate the robustness of our method, we conduct 
experimental tests on labeled in-domain data with different size. 
These labeled data are randomly chosen from in-domain data set 
(in this experiment, we take “stock—>hotel” data as in-domain 
data) by different proportion. For comparison, we test the 
performance of the PMI method in the same experimental setup. 
Figure 4 presents this experimental result. 


Figure 4: Accuracy of word semantic orientation inferring on 
different size of “stock-to-hotel” data set 

From this figure, we can find that our method shows 
comparable performance even when there is only 10% of the in¬ 
domain data, while PMI gets worse quickly when the proportion 
of in-domain data decreases, especially when the proportion is 
less than 30%. 

We think that in this experiment, the PMI method refers the 
semantic orientation of out-of-domain words relying on only the 
WWi n ter-Relationship, which is provided by in-domain corpus. 
Therefore, the size-varying in in-domain corpus shows 
considerable influence on the performance of the PMI method; 
while proposed method also takes the WD inter -Relationship and 
WD intra -Relationship into account, which may counteract this 
adverse affect of the size-varying in in-domain corpus. 

5.4 Varying the Parameter 

There is only one parameter in proposed method, which is the 
trade-off parameter a in Equation 12. We conduct experimental 
tests by varying the parameter on the three data sets: electronics- 
to-hotel, hotel-to-electronics and stock-to-hotel. Figure 5 presents 
this experimental result. 



inferring on different a 

The parameter a reflects the influence of in-domain 
knowledge on the guide of clustering on out-of-domain data. 
From this figure, we can find that when a is small, by 
introducing in-domain knowledge, the accuracy increase; while 
when a is larger than a threshold, the algorithm gradually 
degenerates into the clustering based fully on in-domain 
knowledge, which excludes the contextual knowledge about out- 
of-domain data (i.e., WD intra -Relationship). This will result in the 
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decline in accuracy. According to this figure, we set a to 0.25 in 
our experiments. 

6. CONCLUSIONS AND FURTHER WORK 

In this paper, we propose an adapted information bottleneck 
method for the automatic construction of domain-oriented 
sentiment lexicon by fusing the cross-domain knowledge 
(including word-to-document and word-to-word relationships) 
and within-domain knowledge (word-to-document relationship) in 
a unified information-theoretic framework, and solve this problem 
using an iterative reinforcement approach. Our theory verifies the 
convergence property of proposed method. The empirical results 
also support our theoretical analysis. In our experiment, it is 
shown that proposed method greatly outperforms the baseline 
methods in the task of building out-of-domain sentiment lexicon. 

In this study, only the mutual information measure is 
employed to measure the three kinds of relationship. In order to 
show the robustness of the framework, our future effort is to 
investigate how to integrate more measures into this framework. 
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9. APPENDIX 

A. Proof of Theorem 1 
Proof: 

Lemma 1.1: 

I(D 0 -W 0 )-I(D 0 ； W 0 )=D^f(D 0 ,W 0 ) || f(D 0 ,W 0 )j (i 5 ) 

Proof: 

I{D 0 -W 0 )-I{D 0 -W 0 ) 

= Z Z Z Z z^’wjiog- 

d o ^ D o W o ^ W o d o ^ d o W 0 ew 0 


Proof: 


- z z 

do^ D o W 0 ^W 0 


P(d 0 ,w 0 ) 

'P(d 0 )p(w 0 ) 


Z Z 咖 。， wj 

^d 0 Gd 0 w 0 ew 0 


log. 


Z Z Z Z 咖。， wjiog- 


P(d„,w o ) 

p(do)p(w 0 ) 

P(d 0 ,w 0 ) 


do eZ) 0 Wo &W 0 d 0 &d 0 w 0 ew 0 


p(d„,Wo) 


P(dJ p(wj 
P(do) p(wj 


na o ,w o )i0 g ^^ 

do ^D a Wo &W 0 d a erf 0 w 0 gw 0 Rd 0 ,w 0 ) 


Lemma 1.2: 


m-w 0 )-m,w 0 )=D KL 


g(D„JVJ\\g(D,JV 0 ) 


(16) 


(17) 


I(D-W 0 )-I(D„W 0 ) 


P(d n w 0 ) 


： y y y 咖 , wjiog- 
hh 乙 : P(d,)P( W 。) 


'' w 0 eW 0 w 0 ew 0 


-«I I 


㈣ 


w 0 eW 0 


X P( d ^ W o) 


、 w o ew 0 


P{d„w 0 ) 


ZEE 


d i^ D i 


Wo^W 0 W 0 €W 0 


ZEE 


—A 




w 0 ^W 0 w 0 ^w 0 

r 


p(A 、 p(wJ 

P(di,wJ 

p(d nWo )^ (18) 

P(wJ 

S(di ， w 0 ) 

g{di ， w 0 ) 


V J 


Lemma 1.3: 

I{W-W o )-I{W-W o ) = D kl 


g(^ ， K)llg(^K) 


(19) 


The proof of Lemma 1.3 is omitted, and it can be derived using 
the similar argument to Lemma 1.2. 

Combining the above three lemmas, we can achieve the 
conclusion of Theorem 1. 
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Abstract — Classification of network vulnera¬ 
bility is critical to detection and risk analysis of 
network vulnerability. A broad range of 
classification methods have been proposed in 
literature. This paper reviews a total of 25 
selected approaches and identifies the 
differences and relations among them. It also 
points out some open issues for research in this 
field. 

Keywords — network vulnerability, vulnerab¬ 
ility attribute, vulnerability classification. 

i. Introduction 

An increasing number of network vulnerabilities 
results in great threats to reliability of information 
systems. The CERT/CC (Computer Emergency 
Response Team Coordination Center) reported that 
the economic loss invoked by the intrusion events 
has reached about 6.66 billion US dollars in 2003. 
The existing vulnerabilities in the information 
systems are the main reasons to invoke the intrusion 
events. Even worse, the number of network 
vulnerabilities is increasing with time. For example, 
there were a total of 7236 vulnerabilities in 2007, 
and this number reached 4110 by the end of the first 
two quarter of 2008 [1]. Because there is no way to 
eliminate vulnerabilities during the implemen¬ 
tations of operation systems and software 
applications [2], vulnerability analysis has become 
important to protect network security. 

Classification of network vulnerabilities is the 
first step in vulnerability analysis. If a vulnerability 


classification is good enough, it can identify any 
vulnerability sufficiently. A good vulnerability 
classification can help in 1) vulnerability publish, 
storage and acquisition; 2) known and unknown 
vulnerability identification; 3) vulnerability analysis 
and evaluation. 

The paper is organized as follows. Section 2 
presents the basic concepts of vulnerability and 
vulnerability classification. We compare a total of 
25 classification methods in Section 3 and identify 
the inheritances among them in Section 4. In 
Section 5, we list some open issues and conclude 
the paper. 

ii. Vulnerability Classification 

Network vulnerability has been researched for 
many years. However, one of the recurrent debates 
is what is Network vulnerability! One broadly 
accepted definition was proposed by Bishop and 
Bailey [3]: “A vulnerable state is an authorized 
state from which an unauthorized state can be 
reached using authorized state transitions; a 
vulnerability is a characterization of a vulnerable 
state which distinguishes it from all non-vulnerable 
states.” 

A general way to describe vulnerability is to find 
attributes of vulnerabilities, which is the main work 
of vulnerabilities classifications. With the attributes 
provided and quantified by a classification, we can 
quantitatively analyze network vulnerabilities in 
evaluating security risks. 


978 - 1 -4244-2794-9/09 / $25.00 ©2009 IEEE 


1171 



We list the well accepted principles of a good 
classification [4] as follows: 

• Public acceptance: A classification should have 
good structure to be accepted publicly. 

• Comprehensibility: A classification should be 
understood by both security experts and people 
who are interested in this area. 

• Completeness: A classification can classify all 
of the possible vulnerabilities. 

• Determinism: The process of a classification 
should have legible definitions. 

• Mutual exclusion: A classification should 
classify a vulnerability into at most one class. 

• Repeatability: The classification process can be 
repeatable. 

• Terminology complying with established 
security terminology. 

hi. Comparison 

The research on vulnerability analysis began in 
1970s [5-7]. McPhee identified the vulnerability in 
the design of a computer system for the first time 
[8] in 1974. At that time, the vulnerability was 
introduced by the tradeoff between the performance 
and technique limitations, rather than by the design 
errors. After that, protecting computer security from 
vulnerability was publicly accepted as an essential 
demand in computer system design. Up to now a 
large number of vulnerability classifications have 
been proposed in literature. We review a total of 25 
different vulnerability classifications. A comparison 
of these classifications is given as Table 1. 

In table 1, we name each classification with its 
proposed authors and time in Column 2. Column 3 
gives a rough description of classification 
attributes. By the classification dimensions, we 
distinguish single dimension classifications and 
multiple dimension classifications, as shown in 
Column 4. According to the different objectives, we 
categorize the classifications into 4 groups: OS 
(Operation System) oriented, attack oriented, 
wireless network oriented, and general 
classifications, as shown in Column 5. 


iv. Inheritances 

The latter proposed classifications often 
modify or extend the former ones. We list in Table 
2 the inheritances among the classifications. For 
example, As lam 1995 and Krsul 1998 are both Unix 
operation system oriented, and Krsul 1998 inherits 
and further develops the main ideas of As lam 1995. 


TABLE I. Inheritances among the 

CLASSIFICATIONS. 


Classifications 
being inherited 

Classifications 

inheriting 

Aslam 1995 [6] 

Krsul 1998 [10] 

Landwehr 1994 [20] 

Kanta Jiwnani 2004 [29] 

Landwehr 1994 
[20], DeMillo and 
Mathur 1995 [12] 

Du,Mathur 1998 [24] 

Landwehr 1994 [20] 

Sam Weber 2005 [21] 


v. Conclusions 

In this paper, we reviewed and compared 25 
vulnerability classification methods. Although a lot 
of approaches in this topic have been proposed, 
none is generally accepted. The main reason is that 
no classification satisfies all the principles about 
classifications, such as comprehensibility, 
completeness, determinism, and mutual 
exclusiveness (as described in Section 2). 

Many issues on vulnerability classifications open 
for further research, such as whether the attributes 
discovered by the existing classifications are 
enough to describe any vulnerability, how to 
quantify each attribute of vulnerability in order to 
make a reasonable network security evaluation, and 
how to evaluate the damage attribute of 
vulnerability. In addition, how to make an 
automatic classification to handle the ever- 
increasing vulnerability is also a real problem worth 
studying. 
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TABLE II. Comparison of Different Vulnerability Classifications 


Label 

Classification Name 

Classification Attribute 

Classification 

Classification 



Description 

Dimension 

Objective 

1 

Abbott 1976 [7] 

Operation based classification 

Single 

OS oriented 

2 

Bisbey 1978 [6] 

Protection Analysis based 
classification 

Single 

OS oriented 

3 

Aslam 1995 [6] 

Causation based classification 

Single 

OS oriented 

4 

Bishop 1995 [9] 

Causation based classification 

Single 

General 

5 

Krsul 1998 [10] 

Causation based classification 

Single 

OS oriented 

6 

Frank Piessens 2002 [11] 

Causation based classification 

Single 

General 

7 

DeMillo and Mathur 1995 
「121 

Prevention based classification 

Single 

General 

8 

Dodson 1996 [13] 

Problem based classification 

Single 

General 

9 

Power 1996 [14] 

Criticality based classification 

Single 

General 

10 

Krsul 1997 [15] 

Damage based classification 

Single 

General 

11 

Cohen 1997 [16] 

Attack method based classification 

Single 

Attack 

oriented 

12 

Du and Mathur 2000 [17] 

Condition based classification 

Single 

General 

13 

Lough 2001 [18] 

Wireless network vulnerability 
classification 

Single 

General 

14 

Lv 2005 [19] 

C/C++ program vulnerability 
classification 

Single 

Wireless 

network 

oriented 

15 

Landwehr 1994 [20] 

Vulnerability attributes include 
origin, introduced time and position. 

3-dimension 

OS oriented 

16 

Sam Weber 2005 [21] 

Vulnerability attributes include 
origin, introduced time and position. 

3-dimension 

OS oriented 

17 

Longstaff 1997 [22] 

Vulnerability attributes include 
origin, access privilege, operation 
system type, availability 

4-dimension 

General 

18 

Howard 1997 [23] 

Attack process based vulnerability 
classification 

5-dimension 

Attack 

oriented 

19 

Du and Mathur 1998 [24] 

Classification attributes include: 
vulnerability origin, affection and 
remedy methods. 

3-dimension 

General 

20 

Bishop 1999 [25] 

6-aixes classification 

Multiple 

General 

21 

Knight 2000 [26] 

General classification 

Multiple 

General 

22 

Wang 2002 [27] 

Software based classification 

Multiple 

General 

23 

Hansman 2003 [28] 

Computer system and network based 
classification 

4-dimension 

General 

24 

Jiwnani 2004 [29] 

Classification attributes include: 
vulnerability origin, position and 
affection 

3-dimension 

General 

25 

Igure 2008 [30] 

Attack characteristic based 
vulnerability classification 

Multiple 

Attack 

oriented 
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Abstract 

Security incident have been imposing tremendous 
threats on today’s network information system. To 
protect this information system from the increasing 
threat of intrusion, various kinds of detection systems 
and sensors for security incident have been developed. 
The main disadvantages of current systems and 
sensors are a high false detection rate and the lack of 
post-incident decision support capability. To minimize 
these drawbacks, various alert fusion technologies 
have been proposed in the recent years. This paper 
presents a general summary of these technologies. 
Basic models and key technologies of alert fusion are 
analyzed and discussed. Moreover, important 
aggregation and correlation algorithms are discussed. 
Finally, we make concluding remarks by predicting the 
development tendencies of alert correlation 
technologies. 


1. Introduction 

As network security concerns have grown, there has 
been a commensurate growth in the research of 
security sensors and systems. Managing alarm volumes 
through sensor tuning is insufficient as the high data 
rates of modern networks leads directly to the base rate 
fallacy argument^ 1]. These voluminous alert streams 
compromise security since they overwhelm the human 
operators tasked with their analyses. There is a need 
for techniques that can analyze the alerts. Alert fusion 
systems have been developed to address this issue. It 
might require the ability to correlate them with some 
other, external, contextual information provided by 
means of other devices than the sole security incident 
detection sensors. 



Figure 1. Correlation process overview 

One of the most challenging tasks in alert fusion is 
to create a unified vision of the events, fusing together 
alerts from heterogeneous monitoring devices. 
Research in the area of alert fusion primarily concerns 
information modeling and high level reasoning in the 
recent years. Alerts can refer to different kinds of 
attacks at different levels of granularity, therefore, the 
alert fusion process can not treat all alerts equally. It is 
necessary to provide several processes, each of which 
focuses on different aspects of the overall correlation 
task. 

Figure 1 shows the model of integrated correlation 
process that we proposed in our project. Alert streams 
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are collected from different agent sources, and then are 
processed though several difference stages including 
normalization, aggregation, verification, and 
correlation, these processes automatically perform the 
low-level alert clustering and correlation analyses 
required to group alerts by cause. After further higher 
level processing, these groupings (or clusters) are then 
reported, in the form of prioritized intrusion reports, to 
the human security analysts tasked with enacting 
responses. 

The remainder of this paper is organized as follows: 
Section 2 presents the description of the alert 
normalization process. Section 3 give an analysis of 
the alert aggregation technologies. Section 4 describe 
the alert verification, and the alert correlation are 
discussed in Section 5. Finally, we make the 
concluding remarks in Section 6. 

2. Alert normalization 

Alerts can be encoded in different formats by 
different sensors. The correlation process will receive 
alerts in different formats from different sensors. 
Intrusion Detection Message Exchange Format 
(IDMEF) [1] is a kind of reporting languages 
describing the format of alerts produced by the security 
incident detection system. IDMEF is a specification 
provided by the Intrusion Detection Working Group 
(IDWG). 

The purpose of IDMEF is to define data formats 
and exchange procedures for sharing information of 
interest to security incident detection and response 
systems, and to management systems which may need 
to interact with them. In order to make Alerts 
compliant with the Intrusion Detection Message 
Exchange Format (IDMEF), it requires to translate raw 
alerts into a standardized alert format, and assign them 
with a standardized name. The attributes of raw alerts 
need to be copied to the appropriate fields of the alert 
as defined by the attribute mappings in the 
normalization database. The attributes of the 
standardized alert contain alerted type, analyzer time, 
attacker nodes, attack graph, consequence, name, 
priority etc. 

RFC4765 [2] describes a data model to represent 
information exported by security incident detection 
systems and explains the rationale for using this model. 
An implementation of the data model in the Extensible 
Markup Language (XML) is presented, an XML 
Document Type Definition is also developed. 

One fact should be taken care is that time difference 
among each network sensors is exist in an alert fusion 
system. All the clocks of the sensors used in the fusion 
system have to be synchronized. This can be achieved 


by using the Network Time Protocol (NTP) [3]. NTP is 
a protocol for synchronizing the clocks of computer 
client or server to another server or reference time 
source over packet-switched, variable-latency data 
networks. NTP uses a hierarchical system of "clock 
strata". The stratum levels define the distance from the 
reference clock and exist to prevent cycles in the 
hierarchy. 

3. Alert aggregation 

The goal of the alert aggregation is to aggregate 
large overlap alerts. Aggregation is the grouping of 
alerts that both are close in time and have similar 
features. It fuses together different “views” of the same 
event. 

Each alert usually has several attributes associated 
with them, for example, source and destination IP 
addresses. Similarity based approaches [4]-[8] perform 
alert correlation through measuring the similarity 
between alerts. We naturally think about to measure 
the similarity between alert attributes to discover the 
relationships among these alerts. For example, if two 
alerts have the same source and destination IP 
addresses, it may be possible that the corresponding 
attacks are launched by the same attacker. 

Debar and Wespi propose implicit aggregation 
component in [9]. They consider alerts are projected 
along three axes: source address, target address and 
alert class. Then alerts, which are equal in this 
projection, are aggregated together as situations. They 
denote the situation types as (src, dst, class). In order to 
indicate on which axes values are equal, they use * for 
a wildcard. For example, if alerts were generated for 
DDoS attack packets, they would correspond to types 
(*, dst, class) and (*, dst, *). If the situation type (*, 
dst, class) contributes over 50% to the situation type 
(*, dst, *), only situation of type (*, dst, class) would 
be triggered. If the situation type (*, dst, class) 
contributes less than 10% to the situation type (*, dst, 
*), only situation of type (*, dst, *) would be triggered. 
If the proportion is between 10% and 50%, both 
situations are raised. 

Situations aggregate alerts and thus help to cope 
with the volume. This method is not target at filtering 
alerts. Situation aggregation can be seen as one part of 
scenario recognition to which the duplicate 
consequences based correlation component adds 
explicit reasoning about logical links between alerts. 

How to define similarity measure is a critical issue 
in approaches to alert aggregation. Several techniques 
have been proposed to solve this problem. In 
particular, Julisch et al. [10] argues that many existing 
correlation approaches focus on attacks, and 
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consequently are not well suited for handling large 
numbers of false positives. He introduces attribute 
generalization in alert clustering This method support 
data mining in root cause discovery, uses conceptual 
clustering to discover root cause [7], [8], [10] and 
generalization hierarchy to aggregate alerts into 
clusters. 

The root cause of an alert is the phenomenon 
causing the alert to occur. Empirical results show that 
only a few root causes are creating large proportion, up 
to 90%, of alerts. Examples of root causes are 
misconfigurations, flawed TCP/IP stacks, and proxies 
whose behavior resembles scanning activity. Typically 
these benign or normal phenomena are persistent, 
systematic and repetitive. They do not disappear by 
themselves and they generate large numbers of alerts. 

The alert clustering problem is NP-complete, and 
thus Julisch proposes to relax the requirement on 
minimal heterogeneity to reach a practical solution. He 
proposes a heuristic approach, which is variant of 
attribute-oriented induction (AOI) for alert clustering. 

The alert clusters help in identifying the root cause 
of alerts in the cluster. Julisch proposes to remove the 
root causes, and in cases when it is not possible, to 
filter them out. For example, root causes can be out of 
the operator’s control or too expensive to fix. He 
reports that filters on real data captured 82% of alerts. 
The approach is efficient in filtering out false positives, 
but as Manganaris[35] et al.’s approach, it is designed 
to filter out all alerts related to root causes. If there is 
some interest in the root cause’s behavior and need for 
more selective filtering, the filtering part of the 
approach would need to be elaborated. 

After clustering the alarms, Julisch's technique 
generated a generalized alarm for each cluster. 
Intuitively, the generation of generalized alarms is 
similar to the automata-learning step. These 
similarity-based alert correlation approaches could 
provide a way to identify what sets of correlated alerts 
may be further integrated based on the similarity 
between alerts. Nevertheless we can notice that this 
approach is not applicable to abnormity detection 

4. Alert verification 

The purpose of the verification component is to take 
a single alert and determine the success of the attack 
that corresponds to this alert. The idea is that alerts that 
correspond to failed attacks should be appropriately 
tagged and their influence on the correlation process 
should be decreased. 

In general scenario, the alert corresponding to the 
worm attack is identified as unsuccessful attack action 
for a UNIX/Linux service, because it is an exploit for 


Microsoft Windows. Thus, the alert is tagged as 
nonrelevant and excluded from further correlation. 

Alert verification can be performed using both 
passive alert verification and active alert verification 
techniques. 

Passive alert verification depends on a priori 
information gathered about the hosts, the network 
topology, and the installed services. The advantage of 
passive techniques is not necessary to perform 
additional tests, and do not interfere with the normal 
operation of the network. The disadvantage of passive 
mechanisms is the potential difference between the 
state stored in the knowledge base and the actual 
security status of the network. 

P. Porras, M. Fong, and A. Valdes [11] describe a 
mission-impact-based approach to the analysis of 
security alerts produced by spatially distributed 
heterogeneous information security (INFO SEC) 
devices, such as firewalls, intrusion detection systems, 
authentication services, and antivirus software. The 
intent of their work is to deliver an automated 
capability to reduce the time and cost of managing 
multiple INFOSEC devices through a strategy of 
topology analysis, alert prioritization, and common 
attribute-based alert aggregation. They developed a 
prototype system called the Mission Impact Intrusion 
Report Correlation System, or M-Correlator. M- 
Correlator is capable of receiving security alert reports 
from a variety of INFOSEC devices. It is intended to 
provide analysts (at all experience levels) a powerful 
capability to automatically fuse together and isolate 
those INFOSEC alerts that represent the greatest threat 
to the health and security of their networks. 

Active verification techniques need to look for 
evidence of the success of an attack by checking 
information at the victim machine. 

Scanners are usually adopted in active verification 
techniques. For example, when a Windows DCOM 
RPC buffer overrun attack is detected by an detection 
system, a scanner will be activated. If the scanner 
script that checks for this particular vulnerability 
(“Microsoft RPC Interface Buffer Overrun KB824146 ”） 
reports that the host that was attacked does not run the 
Windows RPC service, this alert can be ignored. 

Unfortunately, active actions are visible on the 
network and scanning could possibly have an adverse 
effect on one’s own machines. We have to pay 
attention to that scan test run by a vulnerability scanner 
could crash a service. Port scanning also consumes 
network bandwidth and resources at the scanned host. 
Moreover, scanning could possibly have an adverse 
effect on one’s own machines. One also has to make 
sure that the alerts generated in response to the activity 
of the vulnerability scanner are excluded from the 
correlation process. The scope of these scans is also 
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limited; the identification of some evidence associated 
with an attack might require local access to the victim 
machine. 

For the sake of the fact in existence, it is possible to 
development an alert verification subsystem presents 
authentication credentials to the target host. It is rely 
on the techniques that gather evidence about the result 
of an attack using authenticated access to the victim 
host. The alert verification subsystem then can 
remotely log in and execute scripts or system 
commands. This allows one to monitor the integrity of 
system files (e.g., the password file or system specific 
binaries) or to check for well-known files that are 
created by attacks (e.g., worms usually leave an 
executable copy of themselves on the file system). In 
addition, programs to collect interesting forensic data 
such as open network connections (e.g., netstat), open 
files (e.g., lsof), or running processes (e.g., ps) can be 
invoked. 

5. Alert correlation 

Alert correlation focuses on discovering the 
relationships between individual alerts raised by 
security incident detection systems and other security 
systems. Alert correlation has to do with the 
recognition of logically linked alerts, and dedicate to 
disclose the logical association between network attack 
activities by analyzing their corresponding alerts. 
Generally, the method of alert correlation deals with 
meta-alert which generated by alert aggregation. The 
main approach of alert correlation can be divided into 
three classifications: correlation of attack scene, 
correlation of prerequisites and consequences, and 
causal analysis based on a statistical technique. 

5.1. Correlation of attack scene 

The method in [12]-[18] studies the relationship 
between contextual attack behaviors and use the 
method of correlation rule matching based on the 
causality relationship between two contextual attack 
steps to construct attack scenarios. This method is 
similar to the way of misuse detection. The predefined 
attack scenarios based approaches correlate alerts 
based on known scenario templates. The templates are 
patterns of known sequences of attacks consisting of 
individual attack steps. Then, they match agent alerts 
to attack steps in the scenario templates. 

Some approaches [19], [20] in this category specify 
attack scenarios through attack languages. The paper 
[20] models attack scenarios through chronicle 
language. A chronicle is a set of events that are 
connected by temporal constraints. The key of this 
method is how to construct the scenario templates by 


the patterns of correlate alerts. Several algorithms were 
developed for the mining of sequential patterns. B. 
Morin and H. Debar [20] propose a multi-alarm misuse 
correlation component based on the chronicles 
formalism. 

R. Kemmer and G. Vigna [21] have provided State 
Transition Analysis Technique (STAT) to model and 
detect security incident in large-scale, heterogeneous 
networks. S. Cheung [22] has presented methods and a 
language, called Correlated Attack Modeling Language 
(CAML), for modeling multi step attack scenarios in a 
way that enables correlation engines to use these 
models to recognize attack scenarios. C. Kruegel and T. 
Toth [23] propose a completely decentralized approach 
to solve the task of event correlation and information 
fusing of the data gathered from multiple points within 
the network. Their system models an intrusion as a 
pattern of events that can occur at different hosts and 
consists of collaborating sensors deployed at various 
locations throughout the protected network installation. 
They present a specification language to define 
intrusions as distributed patterns and a mechanism to 
specify their simple building blocks. The peer-to-peer 
algorithm to detect these patterns and its prototype 
implementation, called Quicksand, are developed. 

These methods can potentially uncover the causal 
relationship between alerts, but they need to define the 
specification of attacks and the results rely on the 
precision of correlation rules. Such limitations make 
the methods hard to implement. 

Fuzzy Cognitive Maps (FCMs) originated from the 
combination and synergism of fuzzy logic and neural 
networks. In A. Siraj and R. Vaughn [31] research, a 
new alert correlation technique has been described that 
uses cognitive models with FCMs whose structures 
have been defined by human experts. They have 
developed an abstract incident model for alert 
correlation with generalized security events to deal 
with scalability issues in sensor fusion. By focusing on 
the effects of the security incident, such an abstract 
incident model captures the essence of typical or 
commonly occurring techniques used by the attackers 
in multi-staged attacks and correlates alerts, even 
though intermediate alerts are missing in the sensor 
reports. 

This method is a kind of abstract incident modeling 
technique. The abstract incident model allowed 
inference to progress even though evidence of attacks 
was missing in the sensor reports. The proposed 
models are intuitive and generic, and require little or 
no specialized knowledge. Another advantage of this 
technique is linking together alerts that are involved in 
multi-staged coordinated attacks by considering both 
evidence of attacks present in the sensor reports and 
the possible occurrence of such attacks. 
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5.2. Correlation 
consequences 

of 

prerequisites 

and 

The prerequisites 

and 

consequences 

based 

approaches [23]-[27] 

model 

each attack 

through 


describing its prerequisite and its consequence. 
Intuitively, the prerequisite of an attack is the 
necessary condition to launch an attack successfully, 
and the consequence of an attack is the possible 
outcome if an attack succeeds. 

The correlation method [28], [29] uses logical 
formulas to represent the prerequisites and 
consequences of attacks. A logical formula is logical 
combinations of predicates. The prerequisites, 
consequences and attributes of attacks are formalized 
as meta-alert types (or alert types). A hyper-alert type 
(or alert type) is a triple (fact, prerequisite, 
consequence), where the fact is a set of alert attribute 
names associated with the corresponding domains, the 
prerequisite is a logical formula, and the consequence 
is a set of logical formulas. Note all the variables in 
prerequisite and consequence are in fact. 

The usefulness of the system has been demonstrated 
by showing how it could significantly reduce the 
number of false alarms reported by an detection system 
while negligibly reducing the valid alarms. Their tool 
is most logically used as an off-line forensic tool for 
mining old stored alerts after a new vulnerability is 
found. 

Yu and Frincke propose a model for Alert 
Correlation and Understanding (ACU) based on 
Hidden Colored Petri-Nets (HCPNs) [30]. HCPNs 
model agents, resources, actions, and functions of a 
system with transition and observation probabilities. 
To perform correlation, a model based on prerequisites 
and consequences is generated using domain 
knowledge. Training of model is required to best fit the 
model parameters. 

One challenge to this approach is that it requires 
extensive modeling of attacks in terms of specifying 
prerequisite and consequence of each alert type in the 
sensor report. So a new attack cannot be paired with 
any other attacks because its prerequisites and 
consequences are not defined. 

5.3. Causal analysis based on a statistical 
technique 

Alert fusion is more complex when taking into 
account anomaly detection systems, because no 
information on the type or classification of the 
observed attack is available to the fusion algorithms. 


Qin and Lee generate high level correlated alerts 
from low level sensor data and then conduct causal 
analysis based on a statistical technique, known as the 
Granger Causality Test (GCT), to discover new 
patterns of attack relationships [32], [33]. They use 
time series analysis methods to find implicit 
relationships in alert data. They group alerts sharing all 
attributes together allowing a small time window in the 
order of few seconds. This groups alerts issued on the 
same attack. In next step they group alerts with 
identical attribute values apart from the sensor. This 
step aggregates together alerts related to the same 
attack issued from heterogeneous sensors, again a 
small difference in time stamps is allowed. 

F. Maggi and S. Zanero [34] focus on the use of 
GCT, and show that its performance strongly depends 
on a good choice of a parameter. One of these 
parameters, the order of the models, is absolutely 
critical and proves to be sensitive. But it cannot be 
uniquely estimated for a given system. Instead of the 
GCT, they redefine the statistical model of alert 
generation, describing alert streams and timestamps as 
stochastic variables, and show that statistical tests can 
be used to create a reasonable criterion for 
distinguishing correlated and non correlated streams. 
They prove that their criteria work well on the 
simplified correlation task they used for testing, 
without requiring complex configuration parameters. 

6. Conclusions 

Security incident alert fusion is a very import 
research topic in security incident detection field. 
There are some issues worth further investigation.. 

In the future, it is worth to investigate the 
collaboration between multiple information sources, 
which can provide a more holistic view of security 
situations. A lot of data sources can be utilized in this 
respect, including IDS sensors, firewalls, vulnerability 
scanners, honey pots, anti-virus tools, performance 
monitoring systems, and so on. Moreover, it is worth to 
investigate incorporation of dynamic generalization 
hierarchy for alert feature abstraction. 

Another valuable topic to be investigated is 
intention recognition. The purpose of intention 
recognition is to extrapolate the candidate plans in 
order to anticipate the intruder actions. This function 
should provide a global diagnosis of the past, the 
present, and the future. The result of this function is to 
be used by the reaction function to help the system 
administrator to choose the best counter measure to be 
launched to prevent the malicious actions performed 
by all kinds of security incident. 
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The alert verification is still limited now. A lot of 
alerts could not be verified by using the active 
scanning approach. Therefore, we could not determine 
if these alerts were true positives. Future work will 
investigate the feasibility of using authenticated access 
to check the success of an attack, and some of the 
passive techniques that were described in section 4 will 
also be investigated. 
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Abstract 

We investigate an effective and robust mechanism 
for detecting SMTP traffic anomaly. Our detection 
method cumulates the deviation of current delivering 
status from history behavior based on a weighted sum 
method called the leaky integrate-and-fire model to 
detect anomaly. The simplicity of our detection method 
is that the method need not store history profile and 
low computation overhead，which make the detection 
method itself immunes to attacks. The performance is 
investigated in terms of detection probability, the false 
alarm ratio, and the detection delay. Our results show 
that leaky integrate-and-fire method is quite effective 
at detecting anomaly in the SMTP traffic. Compared 
with non-parametric Cumulative Sum method, the 
evaluation results show that our detection method has 
lower false alarm ratio and higher detection 
probability. 

1. Introduction 

The SMTP [1] is used as the basis for most 
electronic mail. Email is the most popular Internet 
service now [2], and it allows people to communicate 
by exchanging electronic messages globally. These 
messages can be delivered in a few seconds to a couple 
of hours. An added attraction is the relatively low cost 
of sending large messages. Combined, these benefits 
give users a convincing argument for access to email, 
and thus the connection of their systems to the Internet. 

SMTP is a simple protocol and contains only a few 
basic commands. There are several security threats that 
associated with these commands and Denial-of-service 
attack is one of the most popular threats of SMTP. 
Denial-of-service attacks based on SMTP are aimed at 
flooding a network or computer with massive email 
messages to prevent legitimate use. In most cases a 
computer is affected because it cannot handle the load 
created by receiving large numbers of messages at the 
same time, or running out of storage space, or cannot 
handle large messages [3]. An example of Denial-of- 


service attacks of SMTP is error mails bouncing back 
attack [4], and a report shows on October 2003, at least 
two domains in the United States had been received 
hundreds of thousands of error mails from all over the 
Internet [5]. 

Another important threat of SMTP is email-based 
viruses, and email viruses have become one of the 
major Internet security threats today. An email virus is 
a malicious program, which hides in an email 
attachment, and becomes active when the attachment is 
opened. A principal goal of email virus attacks such as 
Melissa is to generate a large volume of email traffic 
over time, so that email servers and clients are 
eventually overwhelmed with this traffic, which 
effectively disrupting the usage of the email service. 
Modern email viruses are more damaging, taking 
actions such as creating hidden backdoors on the 
infected machines that can be used to commandeer 
these machines in a subsequent coordinated attack. 

In this paper, we propose an effective and robust 
method for detecting SMTP traffic anomaly, which is 
complementary to the alert threats mentioned above. 
The effect of our detection method is that the method 
need not store history profile and low computation 
overhead. Instead of monitoring the ongoing traffic at 
the front end or the victim server, our method check 
the SMTP server’s delivery log. The benefit of 
checking SMTP log to detect traffic anomaly is that we 
need not monitor raw traffic of the server exchanging 
and make computation overhead very low and the 
SMTP log provides detail information about receiving 
and sending status. The key feature of our method is to 
utilize the leaky integrate-and-fire model to cumulate 
the deviation of current delivering status from the 
history status. The leaky integrate-and-fire model is a 
weighted sum model, and the newer input data will 
play a more important role in the result. The old data 
will be dropped from the result by a weighted factor. In 
this way, our method archives high detection 
probability and lower false alarm ratio. The efficacy of 
our detection method is validated by simulating 
experiment with real background test data. 
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The remainder of this paper is organized as follows. 
The section 2 shows the related works of network 
anomaly detection. In section 3 we discuss the leaky 
integrate-and-fire model based SMTP traffic anomaly 
detection method. In section 4, we evaluate our 
anomaly detection method and compare our method 
with a non-parametric Cumulative Sum method. 
Finally, section 5 presents our conclusions. 

2. Related Works 

It is possible to continuously track the behavior of 
the network by online learning and statistical 
approaches. Statistical analysis has been used to detect 
both anomalies corresponding to network failure, as 
well as network intrusions [6]. 

A predictive detection method [7] was used in web 
server anomaly detection, by analyzing time series 
measurements of the number of http operations per 
second. The statistical model considered both seasonal 
and trend components, which were modeled using a 
Holt-Winters algorithm. Time correlations were 
modeled using a second order auto-regressive model. 
After removing the non-stationarities from the time 
series measurements, anomalies were detected using a 
generalized likelihood ratio algorithm. This method 
need store history profile for future using. 

A wavelet approach was proposed and implemented 
by Paul and others [8], they used wavelet filter to 
process four classes of network traffic anomalies: 
outages, flash crowds, attacks and measurement 
failures. Their results showed that wavelet filters were 
quite effective at exposing the details of both ambient 
and anomalous traffic. However, the authors also 
mentioned that their signal analysis method could not 
detect anomalies in real time. 

The authors of [6] proposed approaches for 
detecting SYN flooding attacks using CUSUM-type 
algorithm, and this case made use of the standard 
sequential change point detection approach. The 
approach of [6] applied the time series measurements 
of the difference of the number of SYN packets and the 
corresponding FIN packets in a time interval. The 
simulation results have shown that SYN flooding 
attacks can be detected with high accuracy by 
CUSUM-type algorithms. 

3. SMTP Anomaly Detection 

In this section, a real time statistical analysis 
method we developed using the theory of Leaky 
Integrate-and-fire model is discussed. Like most 
statistical anomaly detection systems, we compare the 
observed sequence with the profile in representing the 


server’s normal behavior. However, unlike the 
traditional network intrusion detection system that 
detects the anomaly directly by the deviation of current 
behavior from the profiled normal history behavior, 
our method cumulates the deviation in a period to 
detect the anomaly according to the method of 
Integrate-and-fire model described. Compared with the 
CUSUM-type algorithms, the detection algorithm 
based on Integrate-and-fire model is more sensitive to 
current network status. 

Our method uses SMTP server’s log to detect the 
anomaly. SMTP server log provides a mail server’s 
receiving and sending information including failure 
message such as mail with invalid account. The log 
also includes delivery time of each mail. Since our 
work is detecting SMTP traffic anomalies, this data 
source is sufficient. 

3.1. The SMTP Behavior Deviation Evaluation 

Let {x m ^=0,1,-..} be the serial of mail numbers that 
a mail server received within one sampling period, and 
let {y m w=0,l,...} be the corresponding sent mail 
numbers in the same sampling period. We define {A m 
w = 0,l,...} be the number of received mails minus that 
of the corresponding sent mails collected within one 
sampling period. 

In general, the mean of {A n } is dependent on the 
accounts number of SMTP server, and it may also 
depend on the access patterns, for example, varying 
with time of the day and week. To make our detecting 
algorithm more general, we should eliminate these 
dependencies. Thus, {A n } is normalized by the average 
number f n of {y n }- Y n can be computed by using an 

exponentially weighted moving average (EWMA) of 
previous measurements. 

Where fi is the EWMA factor that represents the 
memory in the estimation. Define X n =AJ f n , and {X n } 

is no longer dependent on the network size or time-of- 
day. 

So we can define the deviation of SMTP behavior 
for a given interval n as: 

( 2 ) 

Where x n is the mean rate of X n and estimated from 
measurements prior to n-l. The mean 足 is also 

computed by EWMA method. The deviation of SMTP 
behavior D n is used as input data of our anomaly 
detection method. 

3.2. The Leaky Integrate-and-fire Model 
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Fig. 1. Results of exp(-n/K) with different K 

We can see clearly from Fig.l that the smaller K, 
the more contribution exp(-l/A) does, and the shorter 
history profile is referred. When K=l, exp(-l/5) 
contributes 63.21% to L(50), and about 8 intervals are 
evidently referred in L(50); when 足 =15, exp(-l/15) 
contributes 8.79% to L(50), and all 50 intervals are 
referred in L(50). Here we can see when K=5, 
^ exp(-« / 5) contributes about 45% of integrate result, 


Therefore: 

L'(»)=exp(-l)(L'(«-l) + J D„) ( 8 ) 

K 

As the negative SMTP behavior deviation means no 
anomaly in our detection, according (8), here we let 

|i(«) = exp(-l)(i(«-l) + D„) + ( 9 ) 

[L(0) = 0 

be our network status function. Where n>0 and x + is 
equal to x if x > 0 and x + is equal to 0 otherwise. We 
will use L{n) in making detection decisions. Here we 
call K as cumulating factor. 

Let H represents the anomaly threshold. At interval 
n, if L(n)>H, an alarm will be signaled at time n, 
otherwise the network status is normal. If the alarm is 
signaled at time n, L{n) will be reset to 0. 

3.4. Parameter Specification 

The tuning parameters of above algorithm are the 
cumulating factor K for computing the network health 
status, the alarm threshold H, and the EWMA factor ji. 
In general, the EWMA factor /5 is chosen as 0.98 [6], 
here we also chose J3=0.9S as our EWMA factor in 
experiments. To implement our leaky integrate-and- 
fire anomaly detection algorithm, we still need to 
specify two tunable parameters: K and H. The 
cumulating factor K decides how we cumulate the 
SMTP status deviation to detect the anomaly, and the 
alarm threshold H depends on K. D n has different 
contribution to L{n) with different K. Fig.l shows the 
percentage of (Qxp(-n/K) D n ) in L(50), where we set D n 
=1, «=1,2,...,50. 


Leaky integrate-and-hre model have been proposed 
as model of neurons for a long time. It can be used for 
processing time-varying signals [9] and also can be 
used in powerful computing systems [10]. The simplest 
form of integrate-and-fire model consists of a resistor 
R in parallel to a capacitor C driven by an external 
current I{t). The voltage V(t) across the capacitor C is 
compared to a threshold 8. If V{t)=S at time t an output 
spike 伞 (0 is generated and V{t) is reset to an initial 
voltage U r . Between spikes, the voltage of a leaky 
integrate-and-fire model is governed by: 

^ dV(t)_ V(t) I(t) (3) 

dt RC C 

Suppose that a spike has occurred at t t . For t>U the 
stimulating current is I{t). The V(t) can be expressed 


V{t)=U r exp (- 尝 ) + 去 f ex P (— 点 )/( ⑽⑷ 

When leaky integrate-and-fire model is used to 
detect SMTP anomaly, the deviations of SMTP 
behavior in each interval of t>ti are inputted, and the 
V{t) are tested as alarm condition. The detail of 
detection algorithm will be described in Section 3.3. 

3.3. Anomaly Detection Approach 

In our SMTP traffic anomaly detection approach, 
the SMTP health status is obtained by the output of 
leaky integrate-and-fire model. In the process of 
capacitor recharging, when the input current is 
constant, the earlier input current will raise voltage 
faster. Therefore, in our detection method, the 
deviation of SMTP behavior D n will be inputted into 
leaky integrate-and-fire model from the current interval 
to the last spike occurred interval. That means we input 
current D n first, and than the one just before current, 
and so on. In this way, the current SMTP delivery 
status will play a more important role in the detection 
result. Because D n is the discrete value, suppose that a 
spike has occurred at interval rik, the output of leaky 
integrate-and-fire model at interval n can be gotten 
from (3) as: 


V \n) = U r exp( 一 - 


L ) + ~X ex P( _ 

c /=i 


n — n k —i 
~~ RC~ 


Let U r =0, L\n) = CV\n) and K=RC, from (5) we 


*■ "k 

ro)=X ex p(— 


n—n k —i + \ 


So we have: 

L \n -1) = Qxp(- ! ^ L )D nk+l +exp(- ^ ^ + 1 )A , +2 ( 7 ) 


+ … + exp(_z)Z) >j _ 
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and ^ exp(-« / 5) contributes about 91% of result. This 

n=\ 

means when we chose K=5, the calculating result not 
only emphasizes the first three inputs, but also refers 
enough history information. So in our detection 
algorithm, we chose K=5 as our cumulating factor. 

Suppose we should raise an alarm when x n increases 
to 1.6 times of normal value. When we decide 
cumulating factor K=5, we can calculate H by the 
following algorithm: 

Function GetThreshold ⑹ 

FORI = 1 to TO 10 DO 
e = e + exp(-i/iQ 
RETURN e*0.6 

EndFunction 

When we set K=5, we can get H=2A following the 
above algorithm. 

4. Performance Evaluation 

In this section, we firstly chose parameters of our 
method. In order to compare our method with the 
CUSUM-type algorithm described in [6], we also 
chose parameters for algorithm in [6]. The algorithm of 
[6] is given by 

In addition to parameters choice, we evaluate how 
the parameters of our detection algorithm affect the 
detecting performance. 

Secondly, we investigate the performance of our 
leaky integrate-and-fire method presented in the 
previous section for detecting SMTP traffic anomaly. 
The performance metrics considered include the 
detection probability, the false alarm rate, and the 
detection delay. The detection probability (DP) is the 
percentage of attacks for which an alarm is raised, the 
false alarm ratio (FAR) is the percentage of alarms that 
did not correspond to an actual attack, and the 
detection delay (DD) is the detection delay after the 
attack starts. 

Our experiments use actual SMTP server delivery 
logs taken from our campus mail server as background 
data. We use mail server’s log during 2.5 days and 
measure the SMTP deliveries in one minute. Our test 
set includes 120412 receiving mails information and 
80358 sending mails information with average 
receiving speed 33.45 mails per minutes and sending 
speed 22.32 mails per minutes. 

The attacks were generated synthetically, and this 
allowed us to control the characteristics of the attacks, 
hence to investigate the performance of the detection 
algorithms for different attack intensity. The typical 
attacking duration observed in the Internet is 10 
minutes [11], therefore the attacks are generated with 


mean duration 10 time intervals. The inter-arrival time 
between consecutive attacks is random distributed in 
60-180 time intervals with mean values 120 intervals. 
Our detection method is not sensitive to the attacking 
pattern: it can detect the attacks with both constant and 
burst intensity attacks. 

4.1. Parameter Selection 

According to the directions described in section 3.4 
and [6], we chose K=5 and H=2A for leaky Integrate- 
and-fire anomaly detection method and chose a=\.\ 
and threshold TH=22 for CUSUM is our test set. In 
order to evaluate the parameters we select, we 
enumerate each possible combination of parameters of 
two anomaly detection methods. 

For leaky integrate-and-fire method, we test 
threshold H from 2 to 4 increased by 0.1 and test 
cumulating factor K from 1 to 15 increased by 1. For 
CUSUM method, we test a from 0.6 to 1.6 with step 
0.05 and test threshold TH from 0.6 to 6 with step 0.1. 
We reserve the parameter pairs those can archive 
average 100% detection probability in 10 round tests. 
The test set is generated by overlapping constant 
intensity attacks with the duration of 10 intervals (10 
minutes). The intensity of attacks is 60% of mean 
actual receiving mails rate. 

For CUSUM algorithm described in [6], we select 
parameter pair with a=\.\ and threshold TH=2.2, in 
our test set, CUCUM method gets FAR=0.0077 and 
DD=2.00. For our method, we select K=5 and H=2A. 
In the test set, our method gets FAR=0.0043 and 
DD=0.7. Our select parameters have smaller false 
alarm ratio and lower detection delay in all reserved 
parameter pairs. Considering the tradeoff between false 
alarm ratio and detection delay, the parameter pairs we 
select for performance evaluation are suitable. 

4.2. Evaluation of Cumulating Factor 

Fig.2 shows the how the accumulating factor K 
affects the false alarm ratio and detection delay, where 
the threshold H is adjusted by the algorithm described 
in Section 3.4. The Fig.2 is obtained by taking the 
average of 10 runs. 

Fig.2 shows the effect of cumulating factor K on 
detection delay and false alarm ratio. As the 
cumulating factor K decides the length of history that 
the detection method uses. The bigger K, the longer 
history is referred in making decision, and at the same 
time, the bigger K, the lower weight of current 
delivering status are considered in detection result. 
This means the current delivering status influents 
results less. The longer history may lead to long 
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detection time because current delivery status is not 
sensitive to the final detection result. The smaller K, 
the shorter history is considered and the bigger weight 
of current networking status has, the faster we can 
detect the anomaly, but at the same time, the final 
detection results are more sensitive to the current 
delivering status, it will make more false alarm. 


^ 30 



K 

Fig.2. Effect of Accumulating Factor K 

In our test set, when K=5, the detection results has a 
good tradeoff between detection delay and false alarm 
ratio. 

4.3. Evaluation of Anomaly Detection 

Our experiments consider attacks with constant 
intensity, i.e. the attacks reach amplitude in one time 
interval. Firstly we generate two types of intensity to 
compare our method with CUSUM algorithm 
described in [6], and there are low and high constant 
intensity attacks. In low constant intensity attack, the 
added attacks’ amplitude is 17 mails, and it is about 
50% of mean normal SMTP receiving speed. The high 
intensity attacks’ is about 77% of mean normal SMTP 
receiving speed. Fig. 3 shows the detection results. 




b. Detection results of high intensity attacks 


Fig.3. Detection Results 

Fig. 3a and Fig. 3b show the results for leaky 
integrate-and-fire method in the condition of low and 
high constant intensity attacks, respectively. The 
horizontal axes in these figures are the number of time 
interval. In each graph, from top to bottom, we have 
the SMTP deliveries trace with attacks, the attacks, and 
the detecting results of CUSUM algorithm and leaky 
integrate-and-fire method. 

The above graphs show that our method has good 
performance in both low intensity attacks and high 
intensity attacks. In low intensity attacks, our method 
yields a detection probability of 100% and false alarm 
ratio 0.24%. In high intensity attacks, our method gets 
similar results with 100% detection probability and 
0.33% false alarm ratio. CUSUM algorithm has good 
performance in high intensity attacks, but in low 
intensity attacks, it can’t archive 100% detection 
probability, and the false alarm ratio of CUSUM 
algorithm is much worse than our method 

Secondly we generate a serial of different intensity 
attacks to evaluation our detection performance. The 
detail average results with 10 runs are shown in Fig.4. 
The horizontal axis in Fig.4 is attack mails injected per 
interval. 


- ■-CUSUM 
-o-LIF 


Attack Amplitude 


Fig.4. Average Detecting Results of different 
Intensity Attack 

From Fig.4, we can see clearly that the detection 
probability of our method is higher than CUSUM 
algorithm, but when the attack intensity is larger than 
68% of mean rate of normal SMTP receiving speed (23 
attack mails per interval), both can archive 100% 
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detection probability. But our method gets 100% 
detection probability when the attacks are larger than 
50% of mean rate of normal SMTP receiving speed (17 
attack mails per interval). 

The detection delay of our method is similar with 
CUSUM algorithm, in low intensity attacks with 15 
external attack mails injected, the detection delay of 
both methods are about 2.5 intervals, and in high 
intensity attacks with 29 attacks mails are injected per 
interval, two methods only need about 1 interval to 
raise alarms. 

Our method has better false alarm ratio than 
CUSUM algorithm in all scenarios. The average false 
alarm ratio of our method is about 0.4% and 0.7% for 
CUSUM algorithm. 

The difference in the performance of our detecting 
method and CUSUM method is our method uses 
weighted sum method to cumulate the behavior 
deviation and CUSUM method treats all deviation 
fairly, therefore, our method is more sensitive to 
current network status than CUSUM method, therefore 
our method has better detection probability and lower 
false alarm ratio than CUSUM algorithm, especially in 
low intensity attacks. Detection of low intensity attacks 
is important because early detection of anomaly with 
increasing intensity attacks will enable defensive 
action to be taken earlier. 

5. Conclusions 

In this paper, we propose an effective and robust 
mechanism for detecting SMTP traffic anomaly. Our 
detection method cumulates the deviation of current 
delivering status based on the leaky integrate-and-fire 
model, which is a weighted sum method. The effect of 
our detection method is that the method need not store 
history profile and low computation overhead. Our 
results show that leaky integrate-and-fire method is 
quite effective at detecting attacks, especially in low 
intensity attacks. Compared with non-parametric 
Cumulative Sum method, the evaluation results show 
that our detection method has lower false alarm ratio 
and higher detection probability. Especially in low 
intensity attacks, our method detecting accuracy is 


much higher and the false alarm ratio is lower than 
CUSUM method. 
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Abstract. For analyzing computer system security, the system visitor could be 
classified into five kinds by his privilege to access system resource, and 
presented the model base on privilege escalation. The attacker can enhance his 
privilege by exploiting vulnerability, according to distribution of vulnerabilities 
privilege set, we could construct fault tree to reflect distinctly potential attack 
path, and so this method could quantificational express security state at different 
security policy via analyzing fault tree. 


1 Introduction 

The rapid growth of the Internet influences the economy, politics, culture and many 
aspects of the society. The deeper and wilder the internet application is, the more 
obvious and more complex the computer and network’s security problem is. Hackers 
and vims find more ways to attack while the network technique developing contrast to 
the host and terminal age before. The number of vulnerabilities stated by CERT/CC 
[1] every year grows quickly, 117 in 1995, 419 in 1999, in 2002 the number went up 
to 4129, and the number of vulnerabilities stated by CERT/CC is more than 10000 till 
now. At the same time, more and more attack tools that aim at these vulnerabilities 
are exploited. 

As an important aspect of network security, evaluating the computer security 
through the analysis of the system vulnerabilities is very important and could protect 
us form being hacked. The main content of this article is constructing a security 
evaluation method using fault tree analysis and using this method to describe its 
security status qualitative and quantificational. The organization of this article is 
follows. Section 2 introduces the related researches and the analysis of computer 
system is given is Section 3. Section 4 introduces the system evaluation method, and a 
conclusion is given in Section5. 

2 Related Work 

At the present time, there are two ways to analyze the security status of compute 
system: 


Robert H. Deng et al. (Eds.)： ISPEC 2005, LNCS 3439, pp. 302-513 2005. 
© Springer-Verlag Berlin Heidelberg 2005 



Computer Vulnerability Evaluation Using Fault Tree Analysis 303 

The first is vulnerability scanning which is a traditional way [2-5]. This method can 
check whether or not there are any announced vulnerabilities and any simple attack 
path. This technique has developed for a long time, and there are some famous ones 
are host scanning tools like COPS, Tripwire and network scanning tools such as 
Nmap, Nessus etc. The ISS also develops a security evaluation tool constituted of 
internet scanning tool, database scanning tool and system scanning tool. The approach 
based on vulnerabilities scanning and rules matching are drawing out the system 
character already known and summarize rule expression to build up a system 
character database where one character corresponds to one rule. We can match the 
target system’s information with the rules already existed and the key point is how to 
generate these rules and how to ensure the accuracy of the information. This 
technique is just suitable to check system security qualitatively partially and cannot 
check a whole system. We can’t conclude a quantitative describe about the whole 
target system’s security status without thinking of the correlation of the vulnerabilities 
and the changes of the system status. 

The other way is finding the complex attack paths or lists which can lead to 
changes of the system status by analyzing the security model. The evaluation 
technique based on model is a good chose if you want to make an effective 
measurement on the whole computer system. The France Scholar Rodolphe Ortalo 
developed a method named Privilege Graph [6], Ramakrishnan analyzed these 
Unix-based systems using model-checking technique [7], And Dr. Wang Yuan in 
Science and Technology University of China proposed a network security analysis 
way based on graph and achieved an original system [8]. All these are actual practices 
based on the model analysis. Although it is easy to build the model which can 
discover the hidden trouble in system, the research as far as now must be promoted in 
the building of model and the describing and measuring techniques because subjective 
elements and absence in model maturity may lead to indefinite conclusions. In 
practice, a correct security evaluation model needs heavy practice with statistic of 
security incident, support to security requirement and implements to analyze and 
detect vulnerability automatically. 

The method in this article is building a system security model based on the works 
which have been finished. We analyze every system status in theory according to the 
privilege Escalation model, definite the describing way of the vulnerability in system, 
and also give the correlated path, analyze the security status of target in the way of 
Fault Tree. Contrast to the scanning vulnerability method, this method can describe a 
complete graph of the vulnerability distributing and relationship determined by the 
evaluated object, and this method can also pick out elements which lead to the system 
status changing. Contrast to the former methods which are based on model analysis, 
this evaluation system can present us different status changing models according to 
the different security strategies, and designate the hidden attacking paths show us 
probability that hackers attack successfully, and avoid the incalculable problems 
caused by the complex status transfer. 

3 Definition of Privilege Escalation 

Security evaluation mainly analyzes current computer system and needs an simple, 
flexible and integrate model to reduce complexity of system status space. In this paper 
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we present a method based on privilege escalation for security evaluation, show 
related conception and make definition hereinafter: 

The difference between security theory and actual environment these breach 
computer’s security function almost be classified two forms: the one is the error of 
software design, code, for example input validation error, design error, access 
validation error, and so on, all of these error be concluded in vulnerability database. 
The other is the conceal relation transfer brought by user change configure for 
convenience, file share, remote login don’t need enter password etc. these condition 
be definite as vulnerability. 

Definition 1: Vulnerability 

Vulnerability is a fault produced by an error in the design, development, 
configuration, or using of software or module, vicious attacker may utilize this fault to 
unauthorized access system resource and misuse, violate the security policy, and may 
be produce security incident. 

Definition 2: subject and object 

Subject is the entity that issue access operation and effect actively, universal it is 
user or some process of user. S = {s 1? s 2 ... s n } is all subject set, s ; (i = 1, 2 ... n) is a 
subject. 

Object is the entity that affects passive and it is carrier of information, such as file, 
storage, interface and so on. O = {o 1? o 2 ... o m } is all object set, Oj(j = 1, 2 ... m) is a 
object. 

Definition 3: Security Policy 

Security policy is the rule that make sure a subject whether have the right to access 
an object, and whether the activity of an user or process accord with requirement of 
security, such as discretionary access control policy, mandatory access control policy, 
integrality and etc. All security policy is P = {p p p 2 ... p q } and p ; (i = 1,2, ... ， q) is a 
single policy. 

System users have the different access right (or privilege) to system resource. For a 
user, his privilege is certain, an attacker is often play a certain role of system user and 
usually owns corresponding lower user-level privilege, his target is the higher 
user-level or administrator privilege to access more resource of system. In the process 
of role change, his privilege escalates. This paper introduce privilege, privilege set 
(Pset), privilege escalation to express this concept. 

Definition 4: Privilege and Privilege Set 

We define a privilege as a (o, m) . o is an object, m is a set of access modes of the 
subject to this object and m is not null. Privilege Set is expressed by Pset = {(o i? 
m } )\( o i? mp is a privilege, i=l ， 2, ... n, j=l, 2, ...m}. 

Definition 5: Privilege Escalation 

If a subject S owning Pset utilize some vulnerability to get a new Pset’，and 
彐 , make e Pset ',and Pset , then we should present 

that is Privilege escalation. 

In practice visitor of computer system should be classified accord with different 
Privilege set, many research organizations and researchers worked on this aspect, 
Longstaff present a taxonomy to classify all visitors of computer and divide all visitor 
into five classes: Remote using a common service, Trusted system, User account, 
Physical access, Privileged access[9]. In previous work Zhang Yong-zheng uses 
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Selection Decision Tree (SDT) to classify Psets of all possible users in system [13]. In 
this paper we classify visitor of system corresponding to privilege set, the potential 
privilege sets will be divided into five ranks, defined in Table 1. 


Table 1. Classes of Privilege Set 


Pset-class 

Role description 

Proot 

System administrator, managing all system resource such as 
system device, files and system processes, etc. 

Psupuser 

User which has some special privilege that’s not possessed by 
common user , but only has partial privilege of administrator 

Puser 

Any general system user, which is created by administrator. 

Pguest 

The visitor access anonymously partial resource of system, which 
has Psubset of a general system user. 

Paccess 

Remote visitor which may access network services, can 
communicate data with services and scan system 


4 Fault Tree Based on Privilege Escalation Graph 

4.1 Description of Vulnerability 


This dissertation mainly studies the problems such as the exploiting, consequence and 
conjunction of vulnerabilities. By the analysis of several vulnerability databases, 
universal identification number, the name, the operation systems impacted, the 
published date of the vulnerability selected from these vulnerability databases as a 
part of the attributes of the vulnerability database in system background. Vulnerability 
is expressed by a septenary (BID, NAME, OS, DATE, Ppre, Peon, AC), where Ppre is 
the abbreviation for Privilege-set of premise, Peon is Privilege-set of consequence and 
AC is Attack Complexity. 

1) Privilege-set attribute of vulnerability 

The classification in this dissertation only studies the direct consequences of 
vulnerabilities (especially the vulnerabilities that have published attack scripts and 
programs). And the analysis for the impact of indirect consequences is solved by 
aftermentioned privilege-escalating graph. According to the privilege-escalating 
concept, an attacker should utilize vulnerabilities because this vulnerability help to his 
privilege-set extends. So a vulnerability should have two privilege-set attributes: Ppre 
and Peon. 

Ppre is a set of necessary privilege which is needed if an attacker attempts to utilize 
vulnerability. Only by meeting Ppre, the attacker maybe can utilize the vulnerability 
successfully. Peon is a set of privileges that are produced by utilizing this 
vulnerability successfully and the direct privileges escalating. And Peon indicates the 
compromise degree of this vulnerability in the privilege tier. Since the Ppre and Peon 
distribute in the different rank, the conjunctions between vulnerabilities and a series 
of different means for privilege escalation is produced. Now there are 751 pieces of 
vulnerabilities that have been analyzed after taking samples from vulnerability 
database. Figure 1, 2 and 3 show the distribution plot for the privilege-set attribute of 
vulnerability. 
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Fig. 1. Vulnerability Statistics by Ppre 



Fig. 2. Vulnerability Statistics by Peon 



Fig. 3. Vulnerability Statistics by Ppre-Ppcon 


2) Attack complexity attribute of vulnerability 

The attack-complexity attribute of vulnerability is used to scale the difficulty of 
attack-exploiting and getting corresponding Privilege of consequence. It is influenced 
by many factors such as the availability of attack tool, time needed to perform the 
attack, compute power of attacker and sometimes also the action of system user etc, 
which this series of individual variable can be expressed as the attack-complexity of 
the vulnerability. And there are some ways to setting up the functions about these 
individual variables and the attack-complexity : analyzing of attack processes and 
events, definition and rating by security expert or evaluation by the ITSEC and CC 
evaluation manual. 
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Since the rapid upgrade of computer’s hardware, nowadays personal computer 
system has gotten powerful compute ability. The popularization of network 
application provides a environment for the exploitation and promulgate of various 
attack tools. The multidimensional factors which influence the attack-complexity can 
mapped some variable functions. From the aspect of software dependability, 
Littlewood defines a measurement method of attack-complexity attribute of 
vulnerability, which is based on the random procedure. The quantitative value of a 
variable is given for vulnerability, which indicates the average effort of vulnerability 
utilization by attacker. He considers that the attacker can attack some vulnerability 
successfully as long as adequate effort is paid. The distribution of the effort accords 
with exponential distribution [10]. 

It is impossible to exactly describe the attack-complexity attribute of vulnerability. 
But it can approximately express the difference in attack-complexity attribute of 
different vulnerabilities by some relational factors which reflect attack-complexity 
attribute of vulnerability. This paper use the variable to describe attack-complexity 
attribute of vulnerability, the is the mean probability of success assigned to attack 
this vulnerability successfully. 


4.2 Building Privilege Escalation Graph 

The purpose of evaluation to computer security is used to describe, predict or 
compare the quality of system security of concern. Security requirement presents the 
system resource must be protected and security policy defines the rule these user must 
be accepted. For different security policy and security requirement, evaluation needs 
different evaluation policy. So we define security evaluation policy based on privilege 
escalation in advance as follows: 

1) Compare the security quality between different computer operating system at 
the same times. 

2) Describe the change of security quality in the same computer operating 
system in different times. 



Fig. 4. Process of Making System Privilege Escalation Graph 
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3) Compare the quality of computer security in the same operation system but 
not same edition. 

4) Analyze the real-time security state of computer system. 

The first three policies can be fulfilled by the process of real line in Fig4. After 
realization to mine and coordinate the vulnerability information, at first, estimator sort 
them by class of operating system. The class of Operating system (os” os 2 ... os m ) is 
defined in the vulnerability database. Since vulnerability in the component of 
operating system owns sole property, and the vulnerability in service program or 
application program always refers to different operating system type, we can analyze 
the security of operating system os』by traversing database and picking out relevant 
vulnerability set (v 1? v 2 ... v n ). By this sort, it can reduce the quantity of data to deal 
with, and ensure self-contained quality of data set. 

In the second, it is sorted by date. All different vulnerability is detected in all kinds 
of software since release time. So comparing security of the software have the same 
function, or security of the same system in different times, it must take the date that 
vulnerability is published as an evaluation factor. At the same time, the attack 
complexity of vulnerability is strong related with published time of vulnerability. 

About the fourth policy, based on anterior knowledge, it adds the process of 
information detecting, and by tools as active detecting, sniffer, Real-timely and 
exactly gets the information of evaluation object, such as system type, service, open 
port, and so on, and attempts to attack some security vulnerability using vulnerability 
detecting system based on plug-ins. As the broken line part in Fig4, it combines the 
function of the solid line to realize Real-time analysis of the security of running 
system. 

4.3 The Expression and Description of Privilege Escalation Graph Using FAT 

According to security evaluation policy that for different security requirement, the 
privilege escalation process can be expressed by many types such as attack graph or 
Petri net and so on. Here we express privilege escalation graph with fault tree which 
is a directness formalization method. There are two basal structure in the attack 
attempt process with vulnerability, one is that a vulnerability can be used directly in 
the condition that privilege grade is fulfilled, so many vulnerability with same 
privilege set property constitute “OR” structure. Another is that under the same 
privilege grade, there must be two or more vulnerability to escalate the privilege, and 
these vulnerability constitute “AND” structure. In fault tree, they are expressed with 
OR element and AND element respectively. 

Taking getting administrator privilege of system as an example, a simple privilege 
escalation graph is showed in Fig5 and Fig6 shows its fault tree. By statistic 
distribution of Ppre and Peon, describe it simply as follows: 

1) P 0 , P p P 2 , P 3 , P 4 show a corresponding relationship with five privilege grade 
Paccess, Pguest, Puser, Psupuser, Proot in Table 1 by grade from low to high, 
and show a relevant user’s instance of privilege set in Fig6. 

2) To simply depict, mark vulnerability example in graph with v v v 2 , v 3 ... v 9 , so 
with Ppre and Peon vulnerability make up route ways distributed through 
different privilege grade. 
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Fig. 5. Distributions of Vulnerability Association 

3) Every vulnerability has a attack complexity, that is the probability that 
vulnerability can be used successfully at same condition is sure, expressed 
with v 2 , 3 ... 9 , and the attack complexity between every vulnerability is 
unrelated. 

4) Vulnerability v 4 , v 5 must help each other to escalate privilege from P 3 to P 4 , so 
they make up an And-Gate. (v 6 , v 7 ) is similar to escalate privilege from P 2 to 
P 3 . There are four And-Gates in Fig6. 

5) There are two inputs to privilege P 4 v 19 (v 4 , v 5 , P 3 ) , and these two inputs, make 
up a OR gate. Similarly There are three OR gates in Fig6. 


p 4 



Fig. 6. Fault Tree of System Vulnerability Privilege Escalation 
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4.4 Analysis on Security 

To analyze the system security expressed in Fig5 and Fig6, based on the analysis of 
network security incidents and attacker’s actions, make assumptions as follows: 

Assumption 1: Attacker has lowest privilege P0 at beginning, and his object is to 
get the highest privilege of system, expressed as P4. 

Assumption 2: Attacker has the most attack ability, namely attacker well knows the 
vulnerability existing in system, and has the ability to attack these vulnerabilities. 

Assumption 3: Attack complexity (AC) of vulnerability is known, and use single 
variable to express the probability that vulnerability can be used successfully in 
some phase. 

1) Qualitative analysis: 

For Fig 6 the cut sets are (vl), (v2, v4, v5), (v8, v4, v5) and (v3, v4, v5, v6, v7, v9), 
so the attacker could choose path as follows: 



Pathl 
Path 2 


Path 3 
Path 4 


Fig. 7. Attack Path 


2) Quantificational analysis: 

Attacker can begin from state P 0 , P(P 0 ) = 1. To every path, the probability that 
attacker can get the highest privilege is: 


p(p 4 )=, 

P(P 4 )= 2 4 5 

P(PJ= 8 4 5 
P ( P 4)= 9 3 6 7 4 5 


(1) For Pathl 

(2) For Path2 

(3) For Path3 

(4) For Path4 


Based on the results of the previous section, Fig5 describes the distribution of 
vulnerability of system by Ppre-Pcon, these present main qualitative factors 
correlative with system security. Using fault tree in Fig6, we could quantificationally 
analyze possibility of attacker gain administrator privilege, and presents rough 
experimenting result approached this method to WindowsXP, Windows2000 and 
AIX. 
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4.5 Vulnerability Impact to Security 

Computer is a dynamic system it is incessant updated and its setting is often changed. 
The discovering of new vulnerability, setup of software patch should impact the 
construction of system privilege escalation and the relative fault tree. For example 
Fig6, the attacker have the lowest privilege P 0 at start, he have many path to choose 
for getting the highest privilege P 4 . Now we assume that the vulnerability v 9 is 
removed due to some cause, in this case, though v 6 , v 7 exist there, but they couldn’t be 
exploited because the lack of appropriate privilege, so the fault tree should be 
constructed as Fig8. If v l disappears, the attacker only choose these complex path, for 
the attack complexity of these vulnerability is invariable, the system security is 
enhanced, the Fig 9 show it. 



Fig. 8. Fault Tree of Removed V 9 




Fig. 9. Fault Tree of Removed Vi 
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The rapid growth of the Internet brings corresponding attack utility be developed, 
spread rapidly after a new vulnerability being discovered, so the attack complexity is 
a dynamic variable. For example the Red Code hurt the many computers in 2002 is 
discovered in 2000. It shows that if the automatic attack utility for some vulnerability 
is developed successfully, corresponding attack path in fault tree should stand out, 
becomes feeblest. 

5 Conclusion and Future Work 

This paper presented a method on security evaluation. From the privilege escalation 
graph of system and the expression of fault tree, security state of system is mainly 
impacted by the number of system vulnerability, privilege distribution of vulnerability 
and attack complexity of vulnerability, so an exact and self-contained privilege 
escalation graph can more exactly show security state of system. By traversing graph 
and calculating weight of every node, we can know the main risk the system maybe 
face, and offer guidance to enhance the security of system. 

Expressing security state of system quantitatively should be a hot topic of this field. 
Information detecting based on data fusion, determining attack complexity of single 
weakness, data mining of vulnerabilities are all emphases and difficulty to research in 
security evaluation model. Along with network technology is used more widely and 
deeply, there must be new security questions and challenges, so the further work on 
security evaluation of computer system has very far-reaching significance. 
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Abstract 

Proxy cryptosystem, first proposed by Mambo and Okamoto [M.Mambo, E. Okamoto, Proxy cryptosystem: delegation 
of a power to decrypt ciphertexts, IEICE Trans. Fundam. Electron. Commun. Comput. Sci. E80-A/1 (1997) 54-63], allows 
the original decryptor to delegate his decrypting capability to the proxies. However, until now, no practical proxy cryp¬ 
tosystem modes are proposed. Therefore, in this paper, we present a novel proxy cryptosystem model: proxy cryptosystem 
based on time segmentation. Under this mode, a security analysis model will be proposed. Furthermore, a proxy crypto¬ 
system scheme is presented as an example. We will show that the proposed scheme is proven security in the proposed secu¬ 
rity analysis model. Finally, we will give the ID-based version of this construction. 

© 2007 Elsevier Inc. All rights reserved. 

Keywords: Proxy cryptosystem; Bilinear Diffie-Hellman; ID-based 


1. Introduction 

1.1. Background and related work 

Recently, modern cryptography techniques such as encryption have attracted a lot of attentions due to the 
booms of e-commerce. However, in some cases, a original decryptor such as the CEO of a corporate may be 
put on too much decrypting load. Therefore, it is desirable to delegate the decrypting capability to some prox¬ 
ies such as the assistants of CEO, who can decrypt the encrypted messages on behalf of him. At the same time, 
it is required that the delegation can be withdrew efficiently. 


* An extended abstract of this paper appears in CISC2005, volume 3820 of Lecture Notes in Computer Science, pp. 150-161, Springer- 
Verlag, 2005. 

Corresponding author. 

E-mail addresses: zhouyuantdt@163.com (Y. Zhou), bxfang@ict.ac.cn (B. Fang), zfcao@cs.sjtu.edu.cn (Z. Cao), yxc@hit.edu.cn (X. 
Yun). 


0020-0255/$ - see front matter © 2007 Elsevier Inc. All rights reserved, 
doi: 10.1016/j .ins.2007.01.024 










4096 


Y. Zhou et al. / Information Sciences 177 (2007) 4095-4108 


The nature method of delegating decryption is to “decrypt and re-encrypt”. In this method, there are two 
parties: one is an original decryptor, and the other is a delegated decryptor. When some ciphertext is sent to 
the original delegator, he first uses his secret key to implement a decryption operation and get the correspond¬ 
ing plaintext M, then encrypt it with the delegated decryptor’s public key. However, it may be low efficient in 
some situation. The original decryptor must implement two complete public key cryptographic operations. 
Moreover, When the original decryptor is off-line, the delegated decryptor cannot implement any decryption 
operation. 

In 1996, Mambo and Okamoto [17] introduced proxy cryptosystem to delegate the capacity of decryp¬ 
tion. In their original proposal, it allows an original decryptor to transform the ciphertext into another 
ciphertext for a delegated decryptor. Once the ciphertext transformation is executed successfully, the dele¬ 
gated decryptor can compute a plaintext in place of the original decryptor. After Mambo and Okamoto’s 
initial work, many scholars have done a lot of works in this field. In 1998, Blaze, Bleumer, and Strauss [5] 
proposed the notion of atomic proxy cryptography. In this method, the original decryptor and delegated 
decryptor together publish a transformation key by which a semi-trusted intermediary transforms ciphertext 
encrypted for the original decryptor directly into ciphertext that can be decrypted by the delegated decryp¬ 
tor. Follow on [5], Jakobsson [16] developed a quorum-based protocol where the semi-trusted intermediary 
is divided into sub-components and each of them controls a share of the transformation key. Although 
these schemes are more efficient than “decrypt and re-encrypt”，they still have the common shortcoming: 
When original decryptor or a semi-trusted intermediary is off-line and does not execute transformation, 
the delegated decryptor cannot decrypt some ciphertext encrypted for the original decryptor. So, it is desir¬ 
able that a delegated decryptor can decrypt the ciphertext without any ciphertext transformation by other 
entity. 

In 2004, a transformation-free proxy (TFP) cryptosystem [21] was presented. The TFP scheme allows del¬ 
egated decryptor to do decryption without any ciphertext transformation. However, in the scheme, the encryp¬ 
tion key must be aiming at the specific delegated decryptor (i.e. the delegated decryptor only can decrypt the 
ciphertext encrypted by the encryption key according to his identity). Moveover, no formal security notion are 
given. 

In comparison to delegation of signature, only few research efforts have been put on delegation of decryp¬ 
tion progresses [18,19,22,14,15]. It is fair to say that until the results in [23], constructing a secure proxy 
cryptosystem was an open problem. 


1.2. Our contribution 

1.2.1. Proxy cryptosystem based on time segmentation 

In this paper, we apply a time segmentation mode to proxy cryptosystem. Our idea is from the forward- 
secure schemes [2,4]. In a proxy cryptosystem based on time segmentation (PCBTS), a original decryptor reg¬ 
isters a public key PK and keeping private the corresponding secret key SK. The expected lifetime of PK is 
divided into segmentations, say n of them, numbered ， 2 , •. •, 4. The public key stays fixed throughout the 
lifetime of the scheme, this is curial for making such a scheme viable. When the original decryptor wants 
to delegate his decryption capacity of time segmentation t u he deviates the proxy secret key SK l ts at t t from 
his secret key SK for a proxy decryptor. Then the proxy decryptor obtains the decryption capacity during time 
segmentation t t . At the same time, a PCBTS scheme should guarantee that even if adversary knows proxy 
secret key at time segmentation t h messages encrypted during all time segmentations except t t remain secret. 
Moveover, We define a rigorous notion of security for PCBTS and ID-based PCBTS. 


1.2.2. PCBTS schemes 

We propose a PCBTS scheme, which makes use of ideas from the Hierarchical identity-based encryption 
(HIBE) scheme of Gentry and Silverberg [12], the hierarchical identity-based encryption with constant size 
(HIBE-CSC) scheme of Boneh and Boyen [7], the Foward-secure public-key encryption (FSPE) scheme of 
Canetti et al. [10] and the scheme of Fujisaki and Okamoto [11]. Its security is based on computational 
BDH assumption [8,9]. Under this scheme, we construct an ID-based PCBTS scheme. 


1.3. Organization 
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In Section 2, we first define PCBTS and formally define its security notion, then a PCBTS scheme is pro¬ 
vided under the computational BDH assumption. In Section 3, we define ID-based PCBTS and formally 
define security notion for ID-based PCBTS. In this section, we also provide a ID-based PCBTS scheme. Sec¬ 
tion 4 gives some results and conclusions. 


2. Proxy cryptosystem based on time segmentation and its security 

In this section, we discuss proxy cryptosystem based on time segmentation (PCBTS). We first discuss the 
form of algorithms, and then discuss its security. After that, we present a secure PCBTS scheme. 

2.1. Proxy cryptosystem based on time segmentation 


Definition 2.1. A Proxy cryptosystem based on time segmentation (PCBTS) scheme is a 5-tuple of 
probabilistic, polynomial time (PPT) algorithms ( 多 , 沙 ： such that: 


• The key generation algorithm 劣 takes as input a security parameter \ k , and possibly other parameters, to 
return a public key PK, and corresponding secret key SK. The algorithm is probabilistic. 

• The proxy key derivation algorithm takes as input the public key PK, the secret key SK, and the time 

segmentation t, to return the proxy secret key SK ts of the corresponding time segmentation. 

• The encryption algorithm S takes as input PK, a time segmentation t, and a message M, to return a cipher- 
text C. Here, the way of determining the time segmentation t can be described by a example: Suppose a day 
is selected as the unit for the time segmentation. If the start time of the encryption operation is 11:45 
November 13rd, 2006, then the time segmentation t determined by the software which is used for executing 
the encryption operation is November 13rd,2006. 

• The decryption algorithm Q) takes as input PK, the secret key SK, and a ciphertext C to return a message M. 

• The proxy decryption algorithm 沙 Q) takes as input PK, the secret proxy secret key SK ts of the corresponding 
time segmentation t, and a ciphertext C, to return a message M. 


These algorithms must satisfy the standard correctness requirements as follows: 


(1) for any {PK ， SK) output by 多 （ 1”，and any message M, we have M = S){PK, SK, S{PK, t^M)). 

(2) for any (PK ， SK ts ) output by S>(PK,SK, t), and any message M, we have M = SK ts , 


2.2. Security notion for PCBTS 


We wish to assess the security of a PCBTS scheme. To do this efficiently we must first pin down an appro¬ 
priate model, in which all potential actions of the adversary must be considered. We extend the notion of indis- 
tinguishability of chosen plaintext attack (IND-CPA) [13] and the notion of indistinguishability of adaptive 
chosen ciphertext attack (IND-CCA2) [20], and take into account the attack scenario in which the adversary 
can obtains proxy secret keys of some time segmentations. We call this attack scenario selective time segmen¬ 
tation attack. 

The adversary knows the total time segmentations, the current time segmentation, and the user’s public key 
PK. The goal is that even exposure of some proxy secret keys corresponding to some time segmentations it 
should be computationally infeasible for an adversary to obtain even a bit plaintext information of a given 
ciphertext of time segmentation f (the proxy secret key of t* has not been obtained by the adversary) with 
respect to the already obtained proxy secret keys. 
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Definition 2.2. A PCBTS scheme is secure against selective time segmentation，chosen plaintext attacks (STS- 
CPA) if no polynomially bound adversary has a non-negligible advantage against the Challenger in the 
following game: 

(1) The challenger takes a security parameter 1 A and runs the 多 algorithm. It gives the adversary the public 
key PK, and keeps the secret key SK to itself. 

(2) The adversary issues queries q u q 2 ”.. ， q m where query q t is 

• Proxy secret key query ⑹. The challenger responds by running algorithm to generate the 

proxy secret key SK\ s corresponding to the time segmentation t t . It sends SK l ts to the adversary. 

(3) The adversary generates a request challenge (f Here, M 0 and M\ are equal length plaintext 

and t* is a time segmentation and did not appear in any proxy secret key query in the second step. 
The challenger picks a random bit b G {0,1} and sets C* = S{PK,f^M b ). It sends C* as the challenge 
to the adversary. 

(4) The adversary issues more queries q m+ \,q m+ 2^ … ， q n where query is 

• Proxy secret key query (ti) where t t ^ t*. Challenger responds as the second step. 

At the end of the game the adversary outputs b' G {0,1} and wins the game if b f = b. The adversary’s advan¬ 
tage is the absolute value of the difference between its success probability and 1/2. 

Definition 2.3. A PCBTS scheme is secure against selective time segmentation, chosen ciphertext attacks (STS- 
CCA) if no polynomially bound adversary has a non-negligible advantage against the Challenger in the 
following game: 

(1) The challenger takes a security parameter 1 A and runs the 多 algorithm. It gives the adversary the public 
key PK, and keeps the secret key SK to itself. 

(2) The adversary issues queries q' ， q 2 , … ， q m where query q t is one of 

• Proxy secret key query (^). The challenger responds by running algorithm to generate 

the proxy secret key SK\ s corresponding to the time segmentation t t . It sends SK\ s to the adver¬ 
sary. 

• Decryption query The challenger runs algorithm 3) to decrypt the ciphertext Q using the 

secret key SK. It sends the resulting plaintext to the adversary. 

(3) The adversary generates a request challenge Here, M 0 and M\ are equal length plaintext 

and t* is a time segmentation and did not appear in any proxy secret key query in the second step. 
The challenger picks a random bit b G {0,1} and sets C* = S{PK,f^M b ). It sends C* as the challenge 
to the adversary. 

(4) The adversary issues more queries q m+ \,q m ^ … ， q n where query is one of 

• Proxy secret key query (ti) where t t ^ f. Challenger responds as the second step. 

• Decryption query (C /? t t ) where (Q,^) ^ (C*, t*). Challenger responds as the second step. 

At the end of the game the adversary outputs b' G {0,1} and wins the game if b' = b. The adversary’s advan¬ 
tage is the absolute value of the difference between its success probability and 1/2. 

To prove the security of a PCBTS scheme, we also adopt a concept called plaintext awareness (PA) [1,3]. 
Plaintext awareness means that the adversary can decrypt any ciphertext it creates. In essence, if the adversary 
already knows the answer that it will receive from a decryption oracle, then the oracle gives him no additional 
power. 

Definition 2.4. Let 77 = (^, 逆 JT 级，，级 ， be a STS-CPA PCBTS scheme in random oracle, we say it is 
secure against PA if for any adversary 薄 ， there exists a polynomial time algorithm A (A：) -knowledge extractor 
JT for n in the following game such that 1 — 2,(k) is negligible in k\ 

(1) The challenger takes a security parameter 1 A and runs the 多 algorithm. It gives the adversary the public 
key PK and random oracle H, and keeps the secret key SK to itself. 


Y. Zhou et al / Information Sciences 177 (2007) 4095-4108 


4099 


(2) The adversary J* issues queries q x ,q 2 ”..，q m where query q t is one of: 

• Encryption Oracle queries M t . The challenger runs algorithm S to encrypt the plaintext M t using the 
public key PK and random oracle H. It discards the M t and sends the result ciphertext C t to the adver¬ 
sary J*. 

• Random oracle queries h t . The challenger responds by a random value H t as the answer of //(.). 

(3) The adversary ^ creates a C*. We say C* ^ C z . It sends C* to the challenger. When the challenger 
receives C*, it run the 义 (A：) -knowledge extractor JT, which takes as input results C/ of queries M h results 
{hi^Hi) of queries hj and C*. It try to extract the corresponding plaintext M*. 

When C* is valid ciphertext, the success probability of Jf to extract the corresponding is A (A:). 

2.3. The computational bilinear Diffie-Hellman assumption 

Bilinear Diffie-Hellman problem was formalized by Boneh and Franklin [ 8 ]. We briefly review the relevant 
facts as they appear in [8,9,6]. Let G\ and G 2 be two (multiplicative) cycle groups of prime order q. A bilinear 
pairing is a map e : Gi x Gi —> G 2 with the following properties: 

(1) Bilinear: e{P a , Q b ) = e(P, Q) ab , where P,Q€ G u and a,b € Z*. 

(2) Non-degeneracy: There exists P e G\ and g G Gi such that e(P, Q) ^ l. 

(3) Computability: There exists an efficient algorithm to computer e(P, Q) for P,Q e G\. 

Definition 2.5. Given group Gi and G 2 of the same prime order q, a bilinear map e : G\ x G\ ^ G 2 and a 
generator P of G\, then the computational Bilinear Diffie-Hellman (BDH) Problem is defined as follows: 
Given {P, P\ P\ P c ) fox some a,b,c e Z* as input, compute e(P, P) abc G G 2 . The advantage of an algorithm 
solving Computational BDH problem is 

Adv(s/) = Pr[s/{P,P a ,P\P c ) = e{P,P) abc ] 

where the probability is over the random choice of a, b, c in Z*, the random choice of P G Gj and the random 
bits of . 

Definition 2.6. Let is a BDH parameter generator that takes a security parameter 1 A as input. We say that 
satisfies the computational BDH assumption if Adv{s/) is negligible (in k) for all PPT algorithms s4• 


2.4. A PCBTS scheme based on the computational BDH assumption 

Now, we present a PCBTS scheme, the basic idea of our proposed scheme comes from [12,7,10,11]. The 
scheme is described as follows. 

The algorithm 多 (1 々 ）does the following: 

(1) Run to generate groups Gi, G 2 of prime order q and bilinear map e. 

(2) Select a random generator P e G\,Q e Gi and a random 5 G Z*. Set 尸 pub = P 5 , Q sec = Q . 

(3) Choose a cryptographic hash function H\ : {0,1}* ^ G\. Choose a cryptographic hash function 

H 2 : {0,1}” — Z*. Choose a cryptographic hash function "3 : — {0,1}' 

(4) The public key is PK = (Gi,G 2 ,e,P,P pub , The secret key is Q sec . 

The message space is ^# = {0, \ } n ~ k . Here 0 < k < n. The ciphertext space is ^ = G\ x G\ x {0,1} W . 

The algorithm 茨 级 (PK ， Q sec ,t) does the following: 

Choose a random d e Z;，Set & = Q sec - and T t = P d . The proxy secret key PSK = T t ). 

The algorithm S^PK’t’M) does the following: 

(1) Choose a random r\ G {0,1}^, set C\ = 厂 1 2 , where r 2 = H 2 (m\\ri). 

(2) Set C 2 = //i(O r2 . 
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(3) Set C 3 = (Hki) ㊉ H^g), where g = e(P puh , Q) r \ 

(4) Output C=(^C 1 ,C 2 ,C 3 ). 

The algorithm S>(PK, g sec , C) does the following: 

(1) Compute ^ = e(C u Q sec ). 

(2) Compute = C 3 ㊉/ / 3 (g’). 

(3) Set r 2 = Test whether the equation C\ = P n holds. If not, reject the ciphertext. 

(4) Output M, where M is the first n — k bits of M’. 

We verify consistency. During encryption {m\\rx) is bitwise exclusive-ored with the hash of g. During decryp¬ 
tion C 3 is bitwise exclusive-ored with the hash of g r . These masks used during encryption and decryption are 
the same since: 

〆 =^(Ci,0 sec ) = e(P^^) = e(P,QY 2S = e(P puh ,Q) r2 =g 

Thus, decryption recovers M. 

The algorithm PSK, C) does the following: 

(1) Compute g 1 = e{C u S t )- e(T t ,C 2 )~ l . 

(2) Compute M' = C 3 ㊉/ / 3 (g’). 

(3) Set r 2 = Test whether the equation C\ = P n holds. If not, reject the ciphertext. 

(4) Output M, where M is the first n — k bits of M'. 

We verify consistency. During encryption (m\\ri) is bitwise exclusive-ored with the hash of g. During decryp¬ 
tion C 3 is bitwise exclusive-ored with the hash of g f . These masks used during encryption and decryption are 
the same since: 

〆 = e(C u S t )- e(T„C 2 y' = d • 歸 ,)• e ( ，歸 )V 
= e(P r \Q)- e{P r \H,{t) d )- f ， //〆?)， 2 )- 1 = e[P r \Q) ■ e(P r \H,{i) d ) ■ e{P r \H x (f) d y x 
= e(P-\Q)^e(P,QV = e(P v ^QT = g (1) 

Thus, decryption recovers M. 

Our main result of this section is the following. 

Theorem 2.1. Under the computational BDH assumption, the above PCBTS scheme is secure in the sense of STS- 
CCA. 

For proving the main theorem, we will first prove Lemmas 2.2 and 2.3. 

Lemma 2.2. Under the computational BDH assumption, the above PCBTS scheme is secure in the sense of STS- 
CPA. 

Proof of Lemma 2.2. Assume a PPT algorithm A can be used to attack the above scheme with the advantage e 
in the STS-CPA attack scenario. We construct a algorithm B which attempt to solve the computational BDH 
problem. Algorithm B is given as input the BDH parameters (q, G\,G 2 , e) produced by = /多 and a random 
instance (P, P a , P 5 , P C )=(P, P\,P^ P 3 ) of computational BDH problem. The goal of B is to compute 
U = e{P,P) abc G G 2 . Algorithm B finds C/ by interacting with A as follows: 

Key generation: Algorithm B creates public key PK = (G\ ， G 2 ， e ， P ， Pp U \y,Q ， H\ ， H 2 ， H 3 ) by setting 
尸 pub = P\ = P a : Q = Pi= P b . Algorithm B give A the public key PK. Observe that the (unknown) secret 
key associated to PK is SK = Q sec = Q 1 = P ab . 

Hj-queries: At any time algorithm A may issue queries to Hi ， To respond to these queries B maintains a list 
of tuples called H\ si . Each entity in the list is the form of {t h m h n h Tj). The list is initially empty. To respond to 
query t t algorithm B does the following: 
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(1) If the query G already appears on the H\ st in a entity {t h m h n b Ti), then algorithm B responds with 
仏 ⑹ =n 

(2) Otherwise, B randomly selects m,- G Z*, rii G Z*, set T t = P m/ ((-P pU b) (Wl) and adds the entity {t h m h 
n h T^) to the H\ si . It responds to A with /// ⑹ = 7V 

H 2 -queries: At any time algorithm A may issue queries to H 2 . To respond to these queries B maintains a list 
of tuples called Each entity in the list is the form of (/ ， ,D. The list is initially empty. To respond to query 
// G {0, l} n algorithm B does the following: 

(1) If the query l t already on the H 1 ^ in a entity (4, L/), then algorithm B responds with H 2 (li) = L h 

(2) Otherwise, B randomly selects L t G Z*, and adds the entity (/ ， ,L,) to the H 1 ^. It responds to A with 
H 2 (li) = L t . 

H 3 -queries: At any time algorithm A may issue queries to H 3 . To respond to these queries B maintains a list 
of tuples called Each entity in the list is the form of (%, Vi). The list is initially empty. To respond to 
query Vf G G 2 algorithm B does the following: 

(1) If the query v t already on the in a entity (v h Vj) then algorithm B responds with H^{vi) = V 

(2) Otherwise, B randomly selects V t G {0, l} n , and adds the entity (v h Vi) to the H^ st . It responds to A with 

= V h 

Proxy secret key queries before challenge: Let t t be a proxy secret key query issued by algorithm A. To 
respond to the query algorithm B does the following: 

(1) B runs the above algorithm H\ oracle to compute ■⑹. 

(2) Then B sets S ti = K' ni , and T ti = P^. In fact, S ti = P^ n, = -P" 6 + P'^ = Q sec + H(t i ) ni b , and T ti = 

p^i — prii.b 

(3) B responds to A with {S h T^). 

Challenge: The algorithm A generates a request challenge Here, Mq and M\ are equal length 

plaintext and f is a time segmentation and did not appear in any proxy secret key query in the second step. 
The algorithm B picks a random bit b G {0,1}, takes P 3 as picks a random u* G Z q and takes as C\, 

picks a random TV e {0,1}*, s e {0,1}& and takes ㊉ W as q, and outputs C* = (f, C\^C^ C 3 ). 

Proxy secret key queries after challenge: Let t t be a proxy secret key query issued by algorithm A and t t ^ f. 
Algorithm B responds to proxy secret key queries in the same way it did in secret key queries before challenge. 

Guess: Algorithm A outputs its guess b' G {0,1}. The algorithm B tests if there exists an entity (v h Vj) in the 
//ft such that Vi = N. If it is, B outputs v t as the solution to the given instance of BDH. 

Let f 2 be the event algorithm issues a query for H 2 {M b \\s) before challenge, and let f 3 be the event 
algorithm issues a query for 7 / 3 ( 1 ；/) such that N = 7 / 3 ( 1 ；/). 

Then the successful probability of algorithm A to win the game is 

Pr[b = b'] = Pr[b = b f A 2 ] + Pr[^ = b r A A Jf 3 ] 

+ Pr[b = b r 八， 烏八 ，彳 3 ] 《争 + Pr [^ 3 ] + \ 

We know that in real attack |Pr[Z? = b f ] — 1/2| ^ e, so we have 

p 柄]争 

Hence, at the end of the game, N appears in some tuple on with the probability at least e — 争 , that is the 
probability of B to successfully produce the correct answer. □ 

Now we show that the scheme is PA secure. 
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Lemma 2.3. The PCBTS scheme is PA secure. 

Proof of Lemma 2.3. Assume A is a, PA attacker. We construct a A(A：)-knowledge extractor K, which runs as 
follows: 

Set up: We run 多 (1 勹， get public key PK = (Gi, G 2 , 尸 ，尸 _ ， Q,H\,H 2 ^H^), get secret key Q sec . 

H x -queries: At any time algorithm A may issue queries to H x . To respond to these queries we maintain a list 
of tuples called H\ st • Each entity in the list is the form of (t h Tj). The list is initially empty. To respond to query 
ti we do the following: 

(1) If the query t t already appears on the H\ st in a entity Ti), then algorithm B responds with H^ti) = T t . 

(2) Otherwise, we randomly select m, G Z*, n t G Z*, set T t = P m/ ((-Ppub) (n/) ) _1 , and adds the entity T^) to 
the H\ st . It responds to A with //，(^) = T/. 

H 2 -queries: At any time algorithm A may issue queries to H 2 . To respond to these queries we maintains a 
list of tuples called H\ si . Each entity in the list is the form of (l h Lj). The list is initially empty. To respond to 
query // G {0,1} M we do the following: 

(1) If the query l t already on the in a entity (/，•, A), then algorithm B responds with // 2 (//) = L t . 

(2) Otherwise, we randomly select L t G Z*, and adds the entity ( 心山 ） to the It responds to A with 

H 2 (h)=L i . 一 

H 3 -queries: At any time algorithm A may issue queries to H 3 . To respond to these queries we maintain a list 
of tuples called Each entity in the list is the form of (v h V-). The list is initially empty. To respond to query 
Vi G G 2 we do the following: 

(1) If the query v t already on the in a entity (v i9 F/), then algorithm B responds with H 3 (Vi) = V h 

(2) Otherwise, we randomly select F/ G {0, l} n , and adds the entity (v h V t ) to the H l ^ st . It responds to A with 
HM) = V t . 

Encryption-queries: At any time algorithm A may issue queries to S. To respond to these queries we 
maintain a list of tuples called C llst . Each entity in the list is the form of Q. We use the above algorithm H 
oracle and the public key PKio encrypt M h then we discard the M t and add C/ to the C llst . After that, we send 
the result ciphertext Q to the adversary A. 

Challenge ciphertext: The adversary A creates a C* = (f, C$, C 3 ), where say C* 0 C llst . It sends C* to us. 

When we receive C*, we run the A(A：)-knowledge extractor K, which takes as input Z/ 1 ^ ， / C llst and C*. 
The knowledge extractor K try to extract the plaintext. It works as follows: 

(1) Check if T*), (v*, V*) are in and respectively. If not, then K fails. 

(2) Otherwise, check if C\ = P L \ C* 2 = (T*) L * . If not, then K fails. 

(3) Otherwise, compute A’ = F" ㊉ q, output AT, where M* is the first n — k bits of M'. 

Thinking of the success probability of K. Let ^ be an event that K fails but C* is a valid ciphertext, let 赏 \ 
be an event that T*) is in H\ s \ let ^ be an event that K fails, let 2 be an event that (f,L*) is in 

and let ^3 be an event that (v*, V*) is in H l ^ st . Then we have 

Pr[#] < Pr[#7\ ， ， i] + Pr[J^A ^ Jf 2 ] + Pr[J^A --， 3 ] 

< Pr[J^| ^ 1 ] + Pr[#-| ^ Jf 2 ] + Pr[^| — ^ 3 ] + ~ + ^ = ~ + ^ 

so we have 
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Proof of theorem 2.1. Due to the work of [1], If a encryption is CPA secure, at the same time it also PA, then it 
is CCA. So the theorem follows directly from Lemmas 2.2 and 2.3. □ 


3. ID-based version of proxy cryptosystem based on time segmentation 

In this section, we will discuss the ID-based version of PCBTS. Like the discussion order of the PCBTS, this 
section is arranged as follows: Firstly we discuss the form of algorithms to specify such schemes followed by 
the security analysis model. After that, we convert the PCBTS scheme described in Section 2.4 into a secure 
ID-based PCBTS one. 


3.1. ID-based PCBTS 


Definition 3.1. A ID-based PCBTS scheme is a 6-tuple of PPT algorithms 以 T 、沙 : Q) 、 沙 Qi) such 
that: 

• The Setup algorithm ^ takes as input a security parameter \ k , and possibly other parameters, to return sys¬ 
tem parameters PM, and master-key MK. The algorithm is probabilistic. 

• The Extract algorithm takes as input the system parameters PM, the master key MK, and an arbi¬ 

trary ID G {0,1}*, to return a secret key SK. 

• The proxy key derivation algorithm takes as input PM, ID, and a secret key SK, and the time seg¬ 

mentation t, to return the secret proxy secret key SK ts of the corresponding time segmentation. 

• The encryption algorithm 8 takes as input PM, ID, a time segmentation t, and a message M, to return a 
ciphertext C. Here, the way of determining the time segmentation is the same as the one in Definition 2.1. 

• The decryption algorithm 3) takes as input PM, ID, the secret key SK, and a ciphertext C to return a mes¬ 
sage M. 

• The proxy decryption algorithm 沙 Q) takes as input PM, ID, the secret proxy secret key SK ts of the corre¬ 
sponding time segmentation t, and a ciphertext C, to return a message M. 

These algorithms must satisfy the standard correctness requirements as follows: 

(1) for any (ID, SK) output by ,MK,ID), and any message M, we have M = S)(PM, ID, SK, 

(2) for any (ID ， SK ts ) output by ^(PM,ID,SK, t), and any message M, we have M = ID, SK ts , 

3.2. Security notion for ID-based PCBTS 

When we access the security of an ID-based PCBTS scheme, selective time segmentation attack and chosen 
ciphertext attack should also be considered. Moveover, as the general ID-based cryptosystem, the attacker 
may implement secret key extraction attack, which first appears in [9]. 

Definition 3.2. An ID-based PCBTS is secure against secret key extraction, selective time segmentation, chosen 
ciphertext attacks (ID-STS-CCA) if no polynomially bound adversary j/ has a non-negligible advantage 
against the Challenger in the following ID-based STS-CCA game: 

(1) The challenger takes a security parameter 1^ and runs the Sf algorithm. It gives the adversary the system 
parameter PM, It keeps the master key MK to itself. 

(2) The adversary issues queries q u q 2 ” .. ， q m where query q t is one of: 

• Extraction query (IDi). The challenger responds by running algorithm to generate the secret key 
SKi corresponding to (IDi). It sends SK to the adversary. 
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• Proxy secret key query (ID h t t ). The challenger first generates the secret key SK ( corresponding to ID h 
then responds by running algorithm 淨 JT 级 to generate the proxy secret key SK l ts corresponding to the 
time segmentation t ( . It sends SK l ts to the adversary. 

• Decryption query (ID h C h t t ). The challenger runs algorithm 3) to decrypt the ciphertext C 7 - using the 
secret key SK. It sends the resulting plaintext to the adversary. 

(3) The adversary generates a request challenge (ID*, Here, M 0 and M x are equal length plain¬ 

text, ID* is an identity and did not appear in any extraction query in the second step, [ID*,t*) did not 
appear in any proxy secret key of query in the second step. The challenger picks a random bit 
b G {0,1} and sets C* = S{PM,ID*^M b ). It sends C* as the challenge to the adversary. 

(4) The adversary issues more queries … ， q n where query is one of 

• Extraction query (/D 7 ) where ID t ^ ID*. 

• Proxy secret key query (ID h t^) where [ID h t t ) ^ (ID*, t*). Challenger responds as the second step. 

• Decryption query (ID h C h ti) where (ID h C/, t t ) ^ [ID*, C*, t*). Challenger responds as the second step. 

At the end of the game the adversary outputs b' G {0,1} and wins the game if b r = b. The adversary’s advan¬ 
tage is the absolute value of the difference between its success probability and 1/2. 

3.3. A ID-based PCBTS scheme based on the computational BDH assumption 

Now, we convert the PCBTS scheme in Section 2 into ID-based PCBTS scheme. The scheme is described as 
follows: 

The algorithm ^(\ k ) does the following: 

(1) Run to generate groups G 2 of prime order q and bilinear map e. 

(2) Select a random generator P e G\ and a random s e Z*. Set P pah = P\ 

(3) Choose a cryptographic hash function H 0 : {0,1}* Gi. Choose a cryptographic hash function 

H { : {0,1}* ^ G\. Choose a cryptographic hash function H 2 : {0, \} n Z*. Choose a cryptographic 

hash function // 3 : G 2 —> {0,1} M . 

(4) The system parameter is PM = (Gi^G 2 ) e,P,P pub ,Ho^Hi,H 2 ,H^). The master key is 叉 

The message space is = {0,1} W- ' Here 0 < k < n. The ciphertext space is ^ = G\ x G\ x {0, l} n . 

The algorithm does the following: 

(1) Compute Q id = H 0 (ID) G G\. 

(2) Set the secret key d ID to be d ID = sQ ID where 夕 is the master key. 

The algorithm 茨级 (PM ， ID ， d ID ， t) does as follows: 

(1) Compute Q id = Hq(ID). 

(2) Choose a random d e Z*, Set S\ D = d ID - H\{t) d , and T\ d = P d . The proxy secret key PSK = (Sj D , T\ d ). 
The algorithm 愿 (PM ， ID ， t ， M) does as follows: 

(1) Compute Q id = H 0 (ID). 

(2) Choose a random r\ G {0,1}^, set C\ = P r2 , where r 2 = H 2 (M\\ri). 

(3) Set C 2 = //〆，)' 

(4) Set C 3 = (M||n) ㊉/ / 3 (g)，where g = e(P puh , Q ID 丫 2 3 4 5 • 

(5) Output C= (t, C U C 2 ,C 3 ). 

The algorithm 级 (PM ， ID,t,d ILh C) does as follows: 

(1) Compute g' = e{C\,d ID ). 
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(2) Compute M' = C 3 ㊉/ / 3 (〆). 

(3) Set r 2 = Test whether the equation C\ m P ri holds. If not, reject the ciphertext. 

(4) Output M, where M is the first n — k bits of M'. 

We verify consistency. During encryption is bitwise exclusive-ored with the hash of g. During 

decryption C 3 is bitwise exclusive-ored with the hash of g'. These masks used during encryption and decryp¬ 
tion are the same since: 

g' = e(C u d 1D )= e(F\ {Q id ) s ) = e(P, Q ID T = e{P pub , Q m ) ri = g 

Thus, decryption recovers M. 

The algorithm ID, PSK, t : C) does the following: 

(1) Compute g' = e(Ci,5f) - e{Tf,C 2 )~\ 

(2) Compute M' = C 3 ㊉/ / 3 (〆). 

(3) Set r 2 = H 2 {M r ). Test whether the equation C\ = P ri holds. If not, reject the ciphertext. 

(4) Output M, where M is the first n — k bits of M'. 

We verify consistency. During encryption {m\\r\) is bitwise exclusive-ored with the hash of g. During 
decryption C 3 is bitwise exclusive-ored with the hash of g'. These masks used during encryption and decryp¬ 
tion are the same since: 

g' = e(C! ， 0- <T\ D , C 2 )- 1 = e(P'd ID . e ( 户，補 r2 )- 1 

= e(P r \ (Q id ) s ) - e{P r \H,{t) d )- e( 户 , 奶 ，)- 1 = e{P r \ (Q m ) s ) - -' 

= e{P r \ (Q id ) s ) = e(P, Q ID 丫 1 s = e(P pub , Q id Y 2 = g (2) 

Thus, decryption recovers M. 

We can ensure the security of the proposed scheme from following Theorem 3.1. 

Theorem 3.1. The ID-PCBTS scheme is secure. 

Proof of theorem 3.1. The proof of the theorem uses the technique of analyzing the Fullident scheme in [8]. 
Suppose there exists an adversary A against the ID-PCBTS scheme with advantage e. We can construct an 
STS-CCA adversary B that uses A to attack the PCBTS scheme. The game between the challenger and adver¬ 
sary B starts with the challenger first generating a random public key PK = (Gi, G 2 , e ， 尸，尸 pu b, 0 ， H 2 ,H 3 ) by 
running key generation algorithm 多 of the PCBTS scheme. The challenger gives PK to algorithm B. 
Algorithm B works by interacting with A in an ID-STS-CCA game as follows: 

Setup Algorithm B gives A the ID-PCBTS scheme’s system parameters PM =(Gi, G 2 ,e, P,P pu ^ Hq, H x , 
Here Gi, G 2 , e, P, 尸 pu b ， B\, H 2 , H 3 are taken from PK, and H 0 is a random oracle controlled by B as 
described below: 

H 0 -queries: At any time algorithm A can query the random oracle H 0 . To responds to these queries 
algorithm B maintains a list of tuples (ID h Q h hi, ci) as explained below. We refer to this list as the //{j st . The list 
is initially empty. When A queries the oracle Hq at a point ID t algorithm B responds as follows: 

(1) If the query ID t already appears on the in a tuple {ID h Q i ， b h c i ') then algorithm B responds with 
// 0 (/A) = fl G G\. 

(2) Otherwise, B generates a random coin e {0,1} so that Pr[coin = 0] = ^. 

(3) Algorithm B picks a random b t G Z*. If coin = 0 compute Q t = P b . If coin = 1 compute Q t = Q 17 . 

(4) Algorithm B adds the tuple (ID h Q^bi.Ci) to the and responds to A with // 0 (/A) = Qr 

Hj-queries (j = 1,2,3): When algorithm issues queries to Hj (j= 1, 2, 3), algorithm B relay the queries to 
challenger and relay the challenger’s responds back to A. 
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Secret key queries before challenge: Let ID t be a secret key extraction query issued by algorithm A. 
Algorithm B responds to this queries as follows: 

(1) Run the above algorithm for responding to H 0 -quQY\QS to obtain a Q t G G\ such that // 0 (/A) = Qi. Let 
(ID h Q^bi.Ci) be the corresponding tuple on the //{j st . If c t =1 then B reports fail and terminates. 

(2) Otherwise, set Q t = P bi • Define d t = ( 尸 _ 产 . Observe that d t = Q t and therefore d t is the secret key asso¬ 
ciated to the IDi ，Give d t to algorithm A. 

Proxy secret key queries before challenge: Let (ID h t t ) be a proxy secret key queries issued by algorithm A. 
Algorithm B responds as follows: 

(1) Run the above algorithm for responding to //o-queries to obtain a Q t G G\ such that // 0 (/A) = Qi. Let 
(ID h Q i: bi,Ci) be the corresponding tuple on the //{j st . If coin =1 then B reports fail and terminates. 

(2) Otherwise, B issue proxy secret key query t t to challenger. When B receives the response (S b 7)) from 
challenge, it responds to A with ( ⑹私， (Ti) bi ). 

Decryption queries before challenge: Let (IDi,C\ti) be a decryption query issued by algorithm A. Let 
C l = (ti, C l v C l 2 , C z 3 ). Algorithm B responding to this queries as follows: 

(1) Run the above algorithm for responding to //o_queries to obtain a Q t G G\ such that // 0 (/A) = Qi. Let 
(ID h Q^bi.Ci) be the corresponding tuple on the //{j st . 

(2) If Ci = 0, run the algorithm for responding to secret key queries to obtain the secret key for the ID t . Then 
use the secret key to respond to the decryption query. 

(3) If c t = 1,2/ = is hold, do as follows: 

• Relay the decryption query C l ID to the challenger and relay the challenger’s response back to A. 

Challenge: The algorithm A generates a request challenge (//)*, Here, M 0 and M x are equal 

length plaintext, ID" is an identity and did not appear in any extraction query before challenge, [ID*,f) did 
not appear in any proxy secret key of query before challenge. Algorithm B does as follows: 

(1) Algorithm B gives the challenger Mi) that it wishes to be challenged on. The challenger responds 

with a PCBTS scheme ciphertext C* = (f, C* V C^C* 3 ) such that C* is the encryption of M b for a random 
b G {0,1} selected by the challenger. 

(2) B run the above algorithm for responding to ^-queries to obtain a Q* e G\ such that H 0 {ID*) = Q*. Let 

be the corresponding tuple on the //{j st . If c* =1 then B reports fail and terminates. 

(3) Otherwise, Q* = ^ is hold. Set C* ID = (f, {C\) bi \ (C* 2 ) bl \ C\), where b7 l is the inverse of b mod q. Algo¬ 
rithm B responds to A with the challenge C* 1D . 

Secret key queries after challenge: Let ID t be a secret key extraction query issued by algorithm A and 
IDi ^ ID*. Algorithm B responds to secret key queries in the same way it did in secret key queries before 
challenge. 

Proxy secret key queries after challenge: Let {ID h ti) be a proxy secret key query issued by algorithm A and 
(ID h ti) f (//)*,f). Algorithm B responds to proxy secret key queries in the same way it did in secret key 
queries before challenge. 

Decryption queries after challenge: Let {IDi,C\ti) be a decryption query issued by algorithm A and 
(/A, C\ti) ^ (//)*, C* ID , f). Algorithm B responds to decryption key queries in the same way it did in secret key 
queries before challenge. 

Guess: Eventually algorithm A outputs b' for b. Algorithm B outputs b' as its guess for b. 

Let be the event that A issues a secret key query of causing algorithm B to abort. Let S 2 be the event that 
A issues a proxy secret key query during that causes algorithm B to abort. Let S 3 be the event that A choose a 
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public key ID* to be challenged, which causes algorithm B to abort. Let S 4 be the event that after challenge 
Algorithm A issues a decryption query {ID h C z ) so that the decryption query that B would relay to the 
challenger is equal to C*. 

Refer to the method of [ 8 ], the probability that algorithm B is not abort is 

Pr 卜 SiN” SjA ， S 3 A ^ 4 ] < S qE+qp+qD (\ - S) 


Here, q E -\- q P -\- q D is the maximum number made by the adversary A. Pr 卜 S\/\ ， S 2 f\ ， S 、 f\ ， ^ 4 ] is max¬ 
imized at <5 op t = 1 — 1/fe + 办 + % + 1). Using J opt ，the probability that B does not abort is at least 
g •( 处 切二你 +1) . So, algorithm B，s advantage is at least e . (g£+ J +gp+1) and is not negligible. 

So, from Theorem 2.1, we know that the ID-PCBTS scheme is secure. □ 


4. Conclusion 

In this paper, we have proposed a practical mode of proxy cryptosystem: proxy cryptosystem based on time 
segmentation (PCBTS). Under this mode, we presented the security model of PCBTS and ID-based PCBTS. 
At the same time, the corresponding schemes of PCBTS and ID-based PCBTS are given. Our schemes are 
practical in e-commence scenario. 
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基于骨干网的并行集群入侵检测系统 
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摘 要：骨 干网的大流量要求实现骨干网入侵:检测系统必须改变传统的 入侵检 测系统结构模型并采用高效 
的入侵检测技术.在对骨干网入侵检测系统的关键技术进行深入研究的基础上，设计并实现了一种适用于 
骨干网的基于规则的入侵检测系统 BNIDS( Backbone Network Intrusion Detection System) . 讨论了 BNIDS 系统 
的并行集群检测模型、报文 捕获机 制和基于规则的分析引擎.试验结果表明，可扩展的 BNIDS 系统能够对骨 
干网流量进行实时入侵检测分析. 
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A parallel cluster intrusion detection system for backbone network 
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Abstract ： In order to change the traditional intrusion detection system architecture model by adopting some ef¬ 
ficient intrusion detection techniques in an intrusion detection system (IDS) for backbone network, based on 
in-depth research on the key techniques of the IDS for backbone network, the design and implementation of a 
rule-based intrusion detection system for backbone network — BNIDS ( Backbone Network Intrusion Detection 
System) , are discussed with emphasis on the parallel cluster detection model, packet capture mechanism and 
rule-based analysis engine. The results of experiments indicate that the scalable BNIDS can do the real-time 
intrusion detection in a backbone network. 

Key words : intrusion detection; network security; load balance; packet capture; multi-pattern matching 


随着 Internet 的飞速发展，网络攻击事件不 
断发生.作为网络安全防护工具防火墙的一种补 
充措施，网络入侵检测系统正得到迅猛的发 
展 [1] . 近些年， RedCode 、 Nimda 、 口令蠕虫等蠕虫 
病毒的肆虐以及 D0S/DD0S 等分布式攻击的频 
繁发生，给世界的经济和人们的生活造成重大的 
影响.这些攻击方式的一个显著特点是它们的发 
生往往会带来骨干网流量出现明显的异常，而这 
种异常在局部子网中则很难观察到，所以选取骨 


收稿 日期： 20003 -05 -15. 

基金 项目： 国家高技术研究发展计划资助项目 （ 2002AA142020). 
作者简 介：杨 武 （ 197 4 -), 男，博士研究生； 

方滨兴 （ 1960 -), 男，教授，博士生 导师； 

云晓春 （1971 -), 男，教授，博士生导师 . 


干网作为人侵监测点十分必要.由于网络带宽不 
断增加，骨干网的流量通常达到数 Gbps 甚至数十 
Gbps. 在如此高速的网络环境下，将网络数据包全 
部截获下来很困难，何况还要做复杂的人侵检测 
分析，因此，要实现基于骨干网的实时入侵检测， 
必须要改变传统的入侵检测系统结构模型并采用 
高效的入侵检测技术 . 

为此，本文在对高效的人侵检测相关技术深 
入研究的基础上，设计并实现了一种基于骨干网 
的高性能人侵检测系统 BNIDS (Backbone Network 
Instmsion Detection System). 

1 BNIDS 的系统结构设计与实现 

在骨干网监测点上，使用单节点机采用监听 
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骨干网中的大部分流量是基于 TCP 协议的. 
针对 TCP 流量，一种理想的负载平衡算法应满足 
以下要求:1 ) 数据被近乎均匀地划分到各个节点 
机上，以保证节点机间的负载 均衡; 2 ) 任意一个 
TCP 连接的双向数据都被分流到同一节点机上, 
以保证各节点机间无数据依赖.但负载平衡算法 
不应过于复杂，以实现高速骨干网中数据的快速 
分流.为此，负载调度器采用了一种基于连接轮转 
调度的算法，以连接为粒度，对网络数据进行合 
理、细粒度的分流.在 TCP/IP 协议中，四元组（源 
IP 地址、目的 IP 地址、源端口、目的端口）唯一地 
确定了一个连接.连接轮转调度算法描述如 下：当 
连接的第一个数据包 （SYN 包）到达时，负载平衡 
器将最近分配的节点机号取模 N 再加1作为新 


的方式对网络数据进行人侵分析时，即使是采用 
SMP 的计算机，其最大可以处理的数据流量约为 
110 Mbps, 所以单节点处理机无法适应高速骨干 
网中实时人侵检测的要求.本文利用负载平衡技 
术，提出了一种基于骨干网的并行集群分析处理 
模型，通过采用 SPMD 的计算模式来对集群系统 
进行了可伸缩性设计.在网络流量增大时,可以通 
过增加处理节点等方法来扩展集群检测系统的数 
据处理能力. BNIDS 的系统结构模型如图1所示. 
负载平衡器通过分光器接人骨干网，实现物理层 
数据流光信号的截获.为将进人到负载平衡器的 
数据分流到集群系统中的各个传感器上，负载平 
衡器需要配置相应的100 Mbps/1 000 Mbps 以太 
端口，将骨干网光信号的数据接人转换成人侵检 
测系统所要求的以太网卡的数据接入.负载平衡 
器除具备基本的数据分流功能外，还可以按照管 
理器的配置策略进行简单的数据过滤，以减少传 


er2 


感器的数据负载. 


Rout 



图 1 BNIDS 的系统结构模型 


连接的分流地址 （N 为节点机数），将报文发送到 
该节点机，同时负载平衡器在 Hash 表中记录这个 
连接 （ 以四元组形式）和相应的节点机号并更新 
最近分配的节点机号.这样当这个连接的下一个 
报文到达时，从 Hash 表中可以得到原来选定节点 
机的地址，继续将报文发送到相同的节点.当连接 
终止或超时「负载平衡器将这个连接从 Hash 表中 
删除. 

对于其他的协议类型则通过对二元组（源 IP 
地址、目的 IP 地址）做简单的散列运算来获取分 
流地址.公式 为：目 的节点机号 =( 源 IP 地址㊉目 
的 IP 地址） mod N, N 为集群系统的节点数. 
BNIDS 系统中的传感器用于捕获以太网数据包 v 
进行协议分析与还原以及规则匹配过程.管理器 
接收传感器生成的警报事件并进行综合的分析和 
结果显示.传感器的实现框架如图2所示. 



Network Traffic 


L _ I 

图 2 传感器结构 

1.1 基于零拷贝技术的报文捕获机制 

传统的网络人侵检测系统一般是通过调用报 
文捕获函数库 Lib P ca P [2] 来捕获网络链路层数据 
帧.在大流量网络环境下，基于 Libpcap 的捕包机 
制效率低下，往往会岀现大量丢包的现象.造成这 
种现象的主要原因是数据包的传输总是通过操作 
系统内核来完成，这包括了一些关键路径如系统 
调用和数据拷贝等过程.系统调用相当于一个中 
断号为 0x80 的中断，在网络流量很大时，系统调 
用消耗在中断现场保存与进程切换上的 CPU 时 
间就相当可观.内存带宽是系统主要的性能瓶颈 
之一，多次的数据内存拷贝操作要消耗大量的 
CPU 周期和内存资源，从而严重地增加了系统的 
处理开销. 

为了提高人侵检测系统的捕包性能，有必要 
减少报文传输过程的中间环节,绕过操作系统内 
核，减少或消除数据拷贝次数,降低系统有限资源 
的消耗.为此设计了基于零拷贝技术的高效报文 
捕获机制 - Libcapture . 图3对 Libcapture 与传统 


Router 1 
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libpcap 捕包机制进行对比.从图中可以看出 Lib - 
capture 由 3 个部分组成：内核管理模块 - Kernel 
Manager 、 改进的网卡驱动程序 -New NIC Driver 、 
虚拟网络接口 - VNI ( Virtual Network Interface ). 
其中 VNI 位于系统的用户态，为应用程序提供访 
问网络接口硬件的 API 函数库，其他两部分位于 
系统核心态 , Kernel Manager 负责用户空间的虚拟 
地址-物理地址转换并创建共享缓冲环 . Kernel 
Manager 仅在打开虚拟网络接口时使用 • New NIC 
Driver 则通过和 Kernel Manager 的交互获取网卡 
异步 DMA 操作所需的物理地址转换表，并启动 
DMA 直接在用户缓冲区和网络接口硬件之间传 
输网络数据包. 



(b) Libcapture 

图3 Libpcap 和 Libcapture 捕包机制的对比 
1.2 基于规则的检测引擎设计 

网络入侵检测系统常用的检测分析技术包括 
异常检测和滥用检测.基于规则的检测引擎能够 
综合滥用检测和异常检测这两种检测方法的优 
点，在保证检测准确性的同时提高了检测未知攻 
击和多态攻击的能力.在 BNIDS 系统的实现中采 
用了一种与 sn 0 rt [3] 中的规则描述语言类似的语 
法.一条规则分为规则头和规则选项两部分.规则 
头包括源地址、目的地址、源端口和目的端口以及 
所属协议和匹配动作.规则选项部分使用一些关 
键字组合来描述攻击特征，如关键字 content 描述 
了数据包载荷中需进行模式搜索的特征字符串. 
1.2.1 高效灵活的规则描述语言 

BNIDS 系统的规则描述语言能够用尽可能少 
的要素以及尽量简单的语法来描述一些常见的网 


络攻击事件.相对于 Snort 规则只能描述基于数据 
包的特征匹配而言,这种规则语言不仅能够描述 
用于滥用检测的模式特征 （ pattern ) 而且还可以描 
述用于异常检测的正常模式简档 （ profile ). 

为进行协议分析和状态检查，定义了规则选 
项“ tcp _ flow ： client _ to _ server , established ’’ •这个 

选项表示待检测的数据包是客户端请求并且经过 
了 TCP 状态检查. 

规则语言能够描述应用层协议规范，这样当 
数据包载荷不符合规则所描述的协议规范时就认 
为发生了异常.例如规则语言定义了关键字 with ¬ 
in 来描述数据包中两处不同的内容匹配之间的距 
离.这样规则 “ alert tcp any any - > $ HOME , 
NET 143 ( content ：" LOGIN " ； content ：!" I Oa I "; 
within ： 100 ；) ”可以用来表示如果在命令字符 LO ¬ 
GIN 之后紧随一定数量 的字节 （ < = 100) 而没有 
发现行终止符就报警，这表明出现了一种新的 
IMAP 缓冲区溢出攻击. 

针对 D 0 S / DD 0 S 类型的攻击，可以定义关键 
字 counter 来描述一段时间内出现的某一类型数 
据包的数量•规则选项 “ counter : $ THRESHOLD , 
$ PERIOD ” 表示在规定的$ PERIOD 时间内，某 
一类型的数据包计数超过域值$ THRESHOLD . 
1.2.2 多规则的高速模式匹配算法 

BNIDS 采用了一种高性能的多规则检测引擎 
来负责对数据包进行规则匹配.该检测引擎分为 
两个阶段.第一阶段是基于规则内容的多模式匹 
配搜索 过程; 第二阶段在完成规则内容匹配后验 
证其他规则选项以确定该规则是否真正匹配当前 
数据包. 

多模匹配算法是基于规则的检测引擎的核 
心，其性能对网络人侵检测系统的整体性能影响 
较大.许多研究者对人侵检测中的模式匹配算法 
进行了深入的分析并提出了一些高性能多模式匹 
配算法 .Aho - Corasick [4] 算法是一种使用有限状 
态自动机的并行搜索匹配算法_ Aho - Corasick % 
法与 BM 算法相结合的 AC - BM 算法 [5] ，利用了 
BM 算法的跳转搜索方式，但要求模式集中的模 
式具有共同的前缀才具有较高的性能 . Mike 
Fisk [6] 等人提出了搜索模式集的 SBMH 算法，表 
明在规则数较少时, SBMH 优于 Aho - Corasick 算 
法.但当规则数超过100条时 ， Aho - Corasick 算 
法优于 SBMH 算法. 

随着攻击特征库的不断增大，要求匹配算法 
具有良好的可扩展性.在 BNIDS 中采用的是经过 
改进的 Aho - Corasick 算法.该算法利用多个模式 
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串构建一个有限状态自动机并且通过使用该自动 
机来发现在对文本字符串的一次扫描过程中所有 
模式匹配的情况.改进的 Aho - Corasick 算法分为 
两步 进行: 首先对人侵检测的多条规则中的特征 
模式串进行预处理，通过这些特征模式串构建有 
限状态自动机的状态以及状态转换 函数; 第二步 
进行网络数据包的匹配过程，当匹配搜索进行到 
有限状态机的终止状态时,检查匹配的模式串列 
表以确定其对应的规则选项是否匹配该数据包. 
该算法模式匹配过程的时间复杂度是 0( n ) ( n 为 
数据包长度），且与规则数目的多少无关. 

2试验结果与分析 


改进的 Aho - Corasick 算法后，人侵检测系统模式 
匹配的时间不依赖于规则数目的变化而变化，从 


而保证了系统具有较好的匹配性能. 

表1模式匹配时间与规则数目的关系表 


规则数目 

系统运行 
时间 /s 

模式匹配时间 

所占百分比 /% 

模式匹配 

时间 /s 

14 

7. 288 

55,94 

4.08 

200 

7.818 

53.21 

4. 16 

450 

10. 821 

37. 73 

4.08 

700 

11.314 

37. 12 

4. 19 

1 000 

17. 193 

23. 54 

4.04 


3 结语 


两台机器采取背靠背的方式连接 ，一 台作为 
大流量发包机，另一台作为捕包机（配置 如下: 
0?11-?11110><2,内存-20,网卡 - Intel ProlOOO 
千兆以太网卡）.测试在不同报文尺寸的情况下, 
两种不同的捕包机制 Libpcap 与 Libcapture 的报 
文捕获性能.结果如图4所示.从图4中可以看 
出，由于采用零拷贝技术消除了用户层和内核之 
间的内存拷贝操作，随着接收报文长度的增加， 
Libcapture 的峰值处理带宽也不断提高_ Libpcap 
的峰值带宽随报文尺寸的变化不大，这是使用传 
统内核协议栈所带来的结果.在相同报文尺寸的 
条件下, Libcapture 的峰值带宽要比 Libpcap 高许 
多.这表明 Libcapture 是一种高性能的报文捕获 
机制. 



图 4 Libpcap 与 Libcapture 的报文捕获性能 
利用 MIT Lincon Lab m 提供的1998入侵检 
测训练数据集，选取一天的流量数据（容量大约 
160 MB 的 Tcpdump 文件）.从人侵检测系统规则 
库中选取1000条规则.测试在不同规则数目情 ® 
下整个数据集的模式匹配时间 （ 实验机 配置 : CPU 
- PIII 1 GX 2, 内存 -2 G ， 硬盘 -18 GSCSI ， 操作系 
统 - Linux - 2. 4. 10) ,如表1所 7K . 结果表明米用 


通过采取分流的策略降低骨干网人侵检测系 

统中单个节点的处理负载,综合采用基于零拷贝 

技术的报文捕获机制以及高速多规则匹配算法来 

提高单节点的数据分析处理能力,从而提高了骨 

干网入侵检测系统的性价比.实践表明具有可扩 

展性的 BNIDS 系统能够对骨干网流量进行实时 

复杂的人侵分析. 
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Abstract. Regular expression (RegEx) matching plays an important 
role in various network, security and database applications. Deterministic 
finite automata (DFA) is the preferred representation to achieve online 
RegEx matching in backbone networks, because of its one single pass 
over inputs for multiple RegExes and guaranteed performance of 0(1) 
memory bandwidth per symbol. However, DFA may occupy prohibitive 
amounts of memory due to the explosive growth in its state size. In this 
work, we propose Series DFA (SDFA) to address the problem. The main 
idea is to cut a complex RegEx into several ordered and small RegExes 
carefully, and then concatenate their compact DFAs in series to match. 
Experimental results show that SDFA can achieve significant reduction 
in memory size at the cost of limited number of memory bandwidth. 

1 Introduction 

Deep Packet Inspection (DPI), which searches for predefined signatures over the 
content of packet payloads, is considered as a powerful and important method 
in network and security applications. Recently regular expressions (RegExes) 
are replacing exact strings as the de facto standard to specify signatures in 
most open-source tools [9,6] and commercial devices. The primary reason is 
the expressive power, simplicity and flexibility of RegExes. Deterministic Finite 
Automata (DFA) is an ideal representation for high-speed RegEx matching, 
because multiple RegExes can be compiled into a composite DFA that performs 
matching over inputs in a single pass with a guaranteed robust performance of 
0(1) memory bandwidth per byte. However, the composite DFA constructed 
for real-world RegEx sets may experience state explosion, as a result it usually 
consumes prohibitive amounts of memory. 

In this paper, we focus on state reduction by cutting complex RegExes into 
well-designed and ordered RegEx fragments that can be compiled into com¬ 
pact DFAs. To match equivalently as uncutted RegExes, we propose Series DFA 

* Supported by the National High-Tech Research and Development Plan of China 
under Grant No. 2011AA010703; the National Natural Science Foundation of China 
under Grant No. 61070026 and No. 61003295. 
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(SDFA) that concatenates the compact DFAs with epsilon transitions in the 
order of their appearance. We further introduce some optimizations to improve 
the memory consumption and memory bandwidth of SDFA. Different from prior 
work [1], SDFA works over RegExes directly to achieve the reduction of states, 
which makes it being constructed easily and quickly even for large-scale RegEx 
sets. We perform a systematic experimental study on real RegEx sets and our 
synthetic RegEx set. The results show that SDFA achieves significant memory 
reduction, and shows almost the same matching speed comparing with the com¬ 
posite DFA. 

2 Related Work 

With the widespread use of RegExes in various applications, research interests 
focus on designing data structures, algorithms and architectures to support fast 
and memory-efficient RegEx matching. In this context, how to reduce the huge 
memory consumption is the hotspot of related researches for those matching 
solutions based on DFAs. In general, prior work can be classified into three 
categories: DFA compression, partial determinization and history auxiliary. 

DFA compression solutions try to achieve memory reduction by compressing 
the transition table for a given DFA [5,3,8,7]. They are based on the observation 
of many common values in the table. However, the memory usage, which have 
been reduced by 95% after compressing, are still very huge as the composite 
DFA for real RegEx sets usually costs multiple terabytes. These solutions are 
orthogonal to our work and can be used to compress the compact DFAs in SDFA. 

Partial determinization solutions address the problem by constructing hybrid 
automata [1] or multiple parallel DFAs [13,10] at the cost of determinacy by 
allowing multiple states active during the matching process. Our work improves 
upon these solutions because our DFAs constructed for the cutting RegEx frag¬ 
ments are compact enough, and are activated when necessary. 

History auxiliary solutions introduce counters, queues and other data struc¬ 
tures as auxiliary memory to avoid duplication of states by recording matching 
history [4,11]. However, the benefit of state reduction does not come for free. 
They either experience an exponential growth in the size of auxiliary memory, 
or require much time to update auxiliary memory after processing each symbol. 

3 Technical Overview of Series DFA 

3.1 State Complexity for RegExes 

An analysis of state complexity for DFA of individual RegEx that does not have 
OR relationship (I) is represented in [13]. Here we consider RegExes in the 
combination of ' one unconstrained repetition * and one constrained repetition 
(three types: fixed repetition {j}, range repetition {j , i} and at-least repetition 
{j , }) of wildcards, and the detail is shown in Table 1. 
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Table 1. State complexity for individual RegEx with k characters 


RegEx Feature 

Example 

State Complexity 

without constrained repetitions of wildcards 

"abed, abed 
^ab.*cd, ab.*cd 

O(k) 

with ", one fixed or one at-least repetition 

一 ab.{j}cd 
"ab.{j,}cd 

o(k+j) 

with and one range repetition 

^ab.{j,i}cd 

o(k(i - j)) 

with only one fixed or one at-least repetition 

ab.{j}cd 
ab.{j,}cd 

0(k + 2 J ) 

with only one range repetition 

ab.{j,i}cd 

0(k(i-j) + T) 


From the table, we can find that unconstrained repetitions do not cause state 
explosion when individual RegEx is compiled into a DFA in isolation (case 1). 
Constrained repetitions of wildcards lead to exponential growth in DFA state size 
for individual RegEx not starting with (case 4 and case 5). Because the DFA 
needs to record the prefix part within each wildcard. The situation becomes 
even worse when multiple RegExes with constrained repetitions are compiled 
together into a composite DFA. Because there are more combinations of prefixes 
and more wildcards in these RegExes. 

By comparison, RegExes of the former three cases do not result in a large 
DFA. Therefore, if we cut RegExes of the latter two cases into multiple RegEx 
fragments of the former three cases, we can construct a compact DFA for each 
fragment. In this paper, we investigate its feasibility to reduce DFA state size. 

3.2 Main Idea of SDFA 

In order to facilitate description, we call a RegEx as its fragments’ father, each 
fragment as its son. For a given RegEx, the first (last) fragment is called its 
eldest son (youngestson), correspondingly other fragments are non-eldest sons 
(non-youngestsons). To match multiple RegExes together in a single pass, all 
the eldestsons are compiled into a composite DFA, and each non-eldestson is 
compiled into an individual DFA. SDFA organizes all the DFAs in series and 
perform matching in the follow way: at the beginning only the initial state of 
the composite DFA is active, all the individual DFAs are sleep; SDFA will add a 
new instance of the initial state of one individual DFA when its preceding DFA 
matches successfully, and delete an instance when it moves to the dead-state. 

We use an example of two RegExes ba [^a] *bad. {2}cd and de [^e] {3} to 
show how SDFA works in detail. It first locates all unconstrained and con¬ 
strained repetitions in the two RegExes, and then cut them into five fragments: 
ba, " [^a] *bad, " . {2}cd, de, " ["e] {3} at these positions. Note that all the non- 
eldestsons begin with A , because a fragment begins to match from position j + 1 
of input string only when its preceding fragment matches successfully at position 
j. Fragments ba and de, which are the eldestsons of the two RegExes, are com¬ 
piled into a composite DFA. Now we describe how to construct a SDFA with the 
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Fig. 1. SDFA accepting ba["a] *bad.{2}cd and de [^e] {3}. For each DFA, the state in 
green (red) is its initial (accepting) state. Transitions to the initial states are omitted. 


bade baba bade ecd 


Active 

State 

Set 


activate 5 from 2 \ 
by e transition 


i activate 14 from 
4 by e transition 


matching jactivate 5 from 2 
i by e transition 


: activate 9 from 8| 丨 activate 14 from! matching 
i by e transition | i 4 by s transition | 


Fig. 2. SDFA traversal with input badebababadeecd 

four DFAs, as shown in Fig. 1. The initial state of the composite DFA (state 0) 
is the initial state of the SDFA, and the accepting states of DFAs constructed for 
the youngestsons (state 13 and 17) are the accepting state of the SDFA. For the 
accepting states of the other DFAs, adding an epsilon (e) transition that does 
not consume any symbol to the initial state of the DFA constructed for its fol¬ 
lowing brother. As shown in Fig. 1, the SDFA accepting ba [ 一 a] *bad. {2}cd and 
de ["e] {3} has 21 states, while the state-minimized DFA has 58 states (omitted 
here for readability). 

In Fig. 2, we show the matching process of the SDFA in Fig. 1 over input 
string badebababadeecd. For example, fragment de is matched two times at 
the fourth and the twelfth symbol, and then SDFA activates state 14 along 
an epsilon transition. The first activation reports a successful match of ba["a] 
*bad.{2}cd after processing the seventh symbol, while the second de-activates 
immediately because state 14 moves to the dead-state along the next symbol e. 

4 Optimization for Series DFA 

Essentially SDFA trades memory size (size of states) with memory bandwidth 
(size of active state set). In this section, we propose some techniques to optimize 
the two metrics by improving the cutting process and matching process of SDFA. 

4.1 Optimization in Cutting Process 

Determining the cutting positions is the main challenge for the construction of 
good SDFA. Cutting at the repetitions of any character range will have low 





















































SDFA: Series DFA for Memory-Efficient Regular Expression Matching 341 


memory size but high memory bandwidth as each fragment is too short. In con¬ 
trast, cutting only at the repetitions of wildcards will have low memory band¬ 
width but high memory bandwidth. Here we give a simple but striking way to 
finish the determination quantitatively. We define the number of characters al¬ 
lowed in a character range as its size. Then we introduce a threshold if the size 
of a character range is more than /x, we think the range is large enough to be cut 
at the positions of its repetitions. When fi is set to 256, the SDFA is essentially a 
composite DFA for the complete RegEx set because no RegEx is cut. 

Furthermore, to obtain good SDFA, the cutting process should comply with 
the following three rules. In fact, we can also consider these rules trying to 
combine several adjacent fragments into one. 

Rule 1: No constrained repetitions or unconstrained repetitions in any eldest- 
son. Because repetitions of large character ranges need to duplicate states to 
record all possible prefixes when multiple RegExes are compiled together as 
mentioned before. Therefore the composite DFA constructed for eldestsons that 
violate this rule will experience state explosion. 

Rule 2: No constrained repetitions after unconstrained repetitions in each frag¬ 
ment. Obviously eldestsons that satisfy rule 1 also follow this rule. For each non- 
eldestson, if it violates this rule, it may belong to case 4 or case 5 in Table 1, 
and cause exponential growth of state size in the worst case. 

Rule 3: No constrained repetitions or unconstrained repetitions after range 
repetitions in each fragment. All the eldestsons also follow this rule just as de¬ 
scribed above. Any non-eldestson failing to comply with this rule falls into case 
3 in Table 1, whose complexity is product. 

These rules allow non-eldestsons to have more than one unconstrained rep¬ 
etitions. One vivid example is RegEx Cookie\s+Monster\s+server\s+engine 
in Snort system. It can be cut into fragments Cookie and "s+\s+Monster\s+ 
server\s+engine if set no less than the size of \s. 

The point that need to be made is that these rules are sufficient conditions but 
not necessary conditions to combine adjacent fragments. An example is RegEx 
ba["a] *bad. {2}cd in Fig. 1. The fragment [^a] *bad. {2}cd obviously violate 
Rule 2, however its DFA does not experience exponential growth in state size. 
Because the occurrence of a makes " [^a] * fails to consume bad, as a result the 
DFA needn’t to take into consideration that bad may appear in the constrained 
repetition . {2}. Snort and other intrusion detection systems have many RegExes 
of this type, for example \/0vCgi\/ ["\.] *\.exe [^\x20] {2000, }. 

4.2 Optimization in Matching Process 

Most DPI applications such as Snort and L7-Filter are only interested in knowing 
the set of patterns to be fired by a packet. We call this type of matching as left¬ 
most matching, which is formally defined as below. 

Left-Most Matching: Consider the matching process M as a function from a 
pattern P and a string S to a power set of 5, such that, M(P, S) ={substring 
S r of S\S f is the left-most substring which is accepted by the DFA of P}. 
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Table 2. Primary information of experimental RegEx sets (/x = 1) 


RegEx 

set 

#of 

RegExes 

% of* 
repetitions 

% of {} 
repetitions 

min-length 

range 

#of 

NFA states 

#of 

7-DFA states 

17filter 

107 

46.7 

21.5 

1-76 

3325 

29047 

backdoor 

158 

36.1 

1.3 

2-77 

3580 

6164 

synset 

300 

59 

18.7 

11-225 

19751 

> 10 6 


This specialty can be exploited to decrease memory bandwidth. As left-most 
matching is enough to know the fired RegExes, once a RegEx is reported it is 
safe to set its all non-eldestson DFAs inactive forever. To our knowledge, SDFA 
is the first automata that uses left-most matching to improve matching process. 
Because all kinds of previous methods must go through the step of constructing 
a sort of composite finite automata for the complete RegEx set. When a RegEx 
is matched, they cannot guarantee that the states that have been traversed by 
the RegEx will not be accessed by other RegExes. On the contrary, SDFA is able 
to ensure that the fragment DFAs of one RegEx will never be accessed by other 
RegExes. For the same reason, the composite DFA in SDFA needs to have an 
always active instance. 

5 Experimental Results 

We design three representative RegEx sets, as shown in Table 2. Column 3 (4) 
is the percent of RegExes containing constrained (unconstrained) repetitions of 
character ranges in each set. The first RegEx set is extracted from L7-Filter [6] 
system, and the second set is from backdoor rule file in Snort [9] system. The 
third RegEx set is generated by open-source RegEx generator [2]. As shown in 
column 7, the three RegEx sets can be compiled into 7 DFAs of 29047, 6164 and 
more than 10 6 states respectively with multiple parallel DFAs [13]. 

We make experiments using two real traffic traces from different links: one 
trace named download is downloaded from [12], the size is 254 MB; the other 
trace named capture is captured in the interface of a backbone network, the size 
is 1,538 MB. We also generate some synthetic traces of 50 MB with open-source 
trace generator [2] under = {0,0.15,0.3,0.45,0.6,0.75,0.9}. Value p m is used 
to model the likelihood of experiencing malicious traffic. 

5.1 Evaluation of Memory Consumption 

In this section, we use the size of DFA states to evaluate memory consumption 
of SDFA for the three RegEx sets. Table 3 shows the summary of state size for 
different values of \i. We can draw the following conclusions from Table 3. 

First, DFA-based solutions are infeasible to perform matching for large RegEx 
sets containing constrained repetitions and unconstrained repetitions. As men¬ 
tioned before, SDFA is in fact a composite DFA when [j, is 256. However, the 
state size is more than 10 7 (inf) in this case for all experimental RegEx sets. 
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Table 3. State size of SDFA on varying fi 


value 

| state size of composite DFA / state sums of individual DFAs / # of DFAs 

of n ， 

17filter 

backdoor 

synset 

1 

5689 / 3293 / 103 

2034 / 3009/144 

9507 / 20322 / 321 

64 

6438 / 3246 / 93 

45072 / 1451/58 

inf / inf / 173 

128 

inf / 2618/56 

45072 / 1451/58 

inf / inf / 173 

256 

inf / 0 / 1 

inf / 0 / 1 

inf / 0 / 1 


Second, the number of DFAs decreases as the increase of \x while the state 
size of the composite DFA grows with fi. The primary reason is that high 
makes some character ranges become small, and SDFA does not cut RegExes at 
the occurrence of unconstrained repetitions and constrained repetitions of small 
character ranges. As a result, the eldest sons have more symbols especially more 
repetitions, which lead to the rapid increase in the state size of the composite 
DFA. However, the sum of states in individual DFAs appears complexly. The 
primary reason is that constrained repetitions may appear in the middle of non- 
eldestsons for large ", which results in exponential growth in state size even for 
an individual DFA. 

Third, SDFA can greatly reduce memory consumption. When /x is 1, the 
three SDFAs have 8982, 5043 and 29379 states respectively in all, which can 
be encoded in on-chip memory directly even without compression. The result is 
closed to that of NFA, and better than that of multiple parallel DFAs (7-DFA). 

5.2 Evaluation of Matching Performance 

In this section, we evaluate matching performance of SDFA, which is measured 
by the size of active state sets. We construct a SDFA for each given RegEx set 
with = 1 ， and observe its active set size on real traces and synthetic traces in 
average case and maximum case. In fact, both the average size and the maximum 
size of active sets increase with \i. When p = 1, SDFA has the worst average size 
and maximum size, because it cuts RegExes at the occurrence of repetitions of 
any character range, as a result fragments are matched frequently. 

The result of backdoor set on its synthetic traces is shown in Fig. 3. As 17filter 
and synset have the similar behavior, we omit them here due to page limitation. 
We can find that: First, left-most matching can really improve the matching 
performance of SDFA, especially in average size. Second, the average size grows 
slowly with the increase of p m , while the change of maximum size is uncertain. 

Fig. 4 shows the results of active set size on real traffic traces for each RegEx 
set. Each connection carries an application protocol, so almost every packets can 
be matched by RegExes in 17filter set. As a result, we can regard the behavior 
of 17filter set as the performance of SDFA under an attack. From Fig. 4 we can 
find that SDFA works well under attacks, although the maximum size is a little 
big. The average active set size of SDFA is very close to that of a composite 
DFA. As each RegEx set can be constructed into 7 DFAs, its average size and 
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Fig. 3. Size of active state sets for back- Fig. 4. Size of active state sets for three 

door set on its synthetic traces experimental RegEx sets on real traces 

maximum size are both 7. Obviously SDFA is suitable to perform large-scale 

RegEx matching in different high-speed network environments. 
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Identifying frequent items in high-speed network is important for a variety of network applications rang¬ 
ing from traffic engineering to anomaly detection such as detection of denial of service attacks. To deal 
with high packet arrival rate, it is desirable that such systems are able to support very high update 
throughput. The advent of multi-core processors calls for efficient parallel designs which can effectively 
utilize the parallelism of the multi-cores. In this paper, we address the problem of parallelizing weighted 
frequency counting in the context of multi-core processors. We discuss the challenges in designing an 
efficient parallel system. Our evaluation and analysis reveals that the naive fine-grained lock design 
results in excessive overhead and wait, which in turn leads to severe performance degradation in 
multi-core architectures. Based on our analysis, we propose a novel method: precision integrated method 
(PRIM). PRIM makes use of the temporal imprecision concept to significantly reduce the merge overhead 
at the cost of relatively large memory space used. Both the theoretical analysis and real traffic experi¬ 
ments demonstrate that PRIM delivers almost linear speedup. 

© 2010 Elsevier B.V. All rights reserved. 


1. Introduction 

Identifying frequent items is one of the problems that have been 
heavily studied in the literature, e.g., in the field of data mining and 
network monitoring. In network traffic monitoring, identifying 
heavy hitter flows which are responsible for most bytes of traffic 
is useful for many applications, such as discovering denial of 
service (DoS) attacks [1], threshold accounting, monitoring traffic 
trends and balancing the traffic load [2]. Finding frequent patterns 
also contributes to the discovery of worm or virus signatures [3]. 

In data stream mining, a data stream is a sequence of items 
from a set S. In network traffic monitoring, we can map the packet 
stream into a stream of items by regarding each packet as an item. 
Since the packets have different packet sizes (number of bytes) 
which means that the mapped items will have different weights. 
There have been several frequent item identification algorithms 
which can handle weighted input, and they require 0(log ⑼ [4] 

or 0(log [5,6] update time per item. 

However, currently the per-packet processing on backbone 
links needs to be accomplished within time scales of a few nano¬ 
seconds. With an average packet size of 1000 bits, the per-packet 
processing time for OC-192 and OC-768 can be less than 100 ns 
and 25 ns, respectively [7]. Let us take the Space Saving [4] algo¬ 
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rithm for example. Space Saving uses a simple heap data structure 
with \ counters which entails 0(log (i)) operations per item. Sup¬ 
pose e = 10 -4 , in the worst case Space Saving requires about 13 
operations for an item. Since one swap operation in the heap data 
structure needs six memory accesses, the total number of memory 
accesses is about 78. Even using the fast SRAM with access times 
of 2-6 ns [8], Space Saving requires at least 156 ns to update an 
item in the worst case. Notice that if the hash table is used for fast 
lookup in the implementation, more memory accesses will be 
needed. As a result, we can see that even with the state-of-the- 
art weighted frequency counting algorithm, it is unable to keep 
up with the speeds of current OC-192 backbone links. Further¬ 
more, the algorithm faces increasingly harder real-time con¬ 
straints as the speed of the backbone links increases (improving 
100% per year according to Estan and Varghese [9]). Throughout 
this paper, we will use the terms heavy hitters and frequent items 
interchangeably. 

Although there have been many weighted frequency counting 
algorithms proposed in the literature, all of them are serial in nature. 
Recently, multi-core processors represent a major evolution in com¬ 
puting technology. Over the past few years, every major micropro¬ 
cessor manufacturer has introduced multi-core processors with 
multiple execution cores on a single chip. For example, the Sun 
SPARC Enterprise T5240 server powered by 2 UltraSPARC T2 Plus 
processors has 128 simultaneous hardware threads [10]. At present, 
even stand workstations have 4-8 cores [11] which provide great 
potential for parallel processing. In a multi-core architecture, 
efficient parallel designs are the only methods of improving 
performance. However, the frequency counting problem is not 
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“embarrassingly parallel” as a result of the data dependencies and 
shared data structures in the stream processing [12]. Therefore, 
thoughtful and efficient designs are needed to parallelize the 
weighted frequency counting algorithms to improve the overall 
throughput in the multi-core architecture. 

Our experiments with a parallel weighted frequency counting 
system using the fine-grained lock design reveal the high conten¬ 
tion overhead of the parallel system. This is because that the con¬ 
tending threads have to wait for the shared resource if it is being 
exclusively held by some other thread frequently which then re¬ 
sults in wasted CPU cycles. To minimize the waits, we propose a 
shared nothing design: precision integrated method (PRIM), where 
threads do not share any data or state information, and each thread 
has its own independent local data structure. Experiments with 
real traffic traces show that the speedup of PRIM increases almost 
linearly with the number of concurrent threads. The paper is struc¬ 
tured as follows. In Section 2, we formally state the problem fol¬ 
lowed by a discussion of related work and a brief description of 
Space Saving [4] which we select to parallelize. We present the 
overview of parallel design as well as the experimental environ¬ 
ment in Section 3. Section 4 analyzes the naive fine-grained lock 
design, and our analysis motivates the need for a new design par¬ 
adigm. Section 5 formalizes PRIM and provides correctness and 
complexity analysis as well as the experimental evaluation. The 
paper is summarized in Section 6. 

2. Preliminaries 

2.1. Problem definition 

We model the data stream S as a sequence of tuples (v,t t c Vft ) t 
where ve U(U = {1,.. .,k], kis a positive integer) is the item name, 
t is the timestamp, c v , t > 0 is the weight of the tuple. We assume the 
tuples are ordered by timestamp. 

Definition 1 (Item frequency). The frequency of item v at time t is 
the total weights of the tuples with item name v throughout the 
data stream S, i.e. t f v (t) = 

Let N(t) = ^2 k v= ifv(t) denotes the total frequencies of all items at 
time t. Since we are interested only in the “current” value of fre¬ 
quencies, in the rest of the paper we drop reference to t and use 
/ v and N to represent the local and total frequencies. 

In network monitoring, the flow identifier represents the item 
name. And a flow is usually defined as the set of packets sharing 
the same values in one or more packet header fields, such as des¬ 
tination IP address or the famous five-tuple. Thus f v represents 
the traffic sent by flow v while N represents the total traffic. 

Generally speaking, the weighted frequent item problem in¬ 
volves finding the data items whose item frequency in the data 
stream S is greater than a user-defined threshold. Precisely, the for¬ 
mal definition of this problem can be described as follows. Given 
two user-specified parameters: a support threshold <j> e (0,1) 
and an error bound e e (0,1) (e 《 <j>\ the algorithm produces a list 
of items with following guarantees: 

1. Output all item v satisfying f v > 4>N. 

2. Output no item v satisfying / v < [小 一 e)N. 

3. Errors between true and estimated frequencies are at most eN. 

We say that an algorithm is e-deficient if its output satisfies the 
above three properties. 

2.2. Related work 

There have been many research works on finding frequent 
items in data streams [4,6,5,13,14]. They can be roughly divided 


into two groups: counter-based algorithms and sketch-based 
algorithms. 

Counter-based algorithms hold a fixed or bounded number of 
counters for tracking the size of frequent items. Whenever an item 
arrives, if it is monitored, then the associated counter is incre¬ 
mented, otherwise decides whether to allocate a new counter or 
reassign an existing counter to this item. In general, the counter- 
based algorithms only need to increment a counter, which results 
in low per-item processing overhead. However, they will carry out 
periodic housekeeping tasks to keep memory usage low, such as 
sorting and deleting some counters. According to Berinde et al. 
[15], the prominent algorithms which are capable of handling 
weighted updates include Space Saving [4] and Frequent [13,14]. 

Sketch-based algorithms use a one or two dimensional array of 
hash buckets to maintain approximate frequency counts of all 
items in the data stream. They usually use hashing technique to 
map each item to a respective list of counters in the hash buckets, 
and each counter might be shared by many items. Whenever an 
item arrives, the respective counters are changed. The sketch- 
based algorithms provide probabilistic guarantees on the fre¬ 
quency estimation of items. However, they need additional data 
information to solve the frequent item problem such as using a 
heap to track the candidate heavy hitters. Furthermore, sketch- 
based algorithms usually have high per-item processing overhead, 
as they need to update several counters in the hash buckets for 
each arriving item at the same time. According to Cormode and 
Hadjieleftheriou [16], the prominent algorithms which can directly 
handle weighted updates include CountSketch [5] and CountMin 
Sketch [6]. 

With the ever increasing data rates, there is a need for faster 
solutions with much higher processing throughput. However, all 
the previous work is on accelerating the processing speed in un¬ 
weighted data streams (each item has weight 1). For example, both 
Bandi et al. [17] and Das et al. [18] take advantage of the Content 
Addressable Memories (CAMs) to support the constant time lookup 
operation in hardware for finding frequent items in unweighted 
data streams. More closely related to our problem is the work of 
Das et al. [12], which proposes a “cooperation” based locking par¬ 
adigm for parallelizing frequency counting in multiple unweighted 
data streams in the multi-core architecture. The major disadvan¬ 
tage is lacking scalability, as it only outperforms the “contention” 
based design by a factor of 2-5.5X. Since the “contention” based 
design underperforms the single thread design [19], the speedup 
of “cooperation” based design compared to the single thread de¬ 
sign will be less than 2-5.5 correspondingly. That is to say, adding 
more threads in the “cooperation” based design will not lead to 
more speedup. And the high complexity in design and program¬ 
ming also prevents its practical use in data stream processing. 

Most importantly, the key of the “cooperation” based locking 
paradigm is the design of concurrent data structures. For example, 
for parallelizing frequency counting in multiple unweighted data 
streams, Das et al. [12] propose the concurrent stream summary 
structure which is very similar to the original stream summary 
structure used by Space Saving to achieve 0(1) time per update. 
However, when the updates are not unitary (+1), it takes Space 
Saving 0(c) time to process each item with stream summary struc¬ 
ture which is apparently not suitable for high-speed network mon¬ 
itoring, where c is the weight of the item. According to Cormode 
and Hadjieleftheriou [16], by replacing the stream summary struc¬ 
ture with a simple min-heap structure, Space Saving is able to cor¬ 
rectly process weighted updates requiring only 0(log ( 备 )）update 
time, where e is the user-specified error bound. Since different data 
structures are used in weighted and unweighted frequency count¬ 
ing, it is difficult to directly apply the “cooperation” based design in 
parallelizing unweighted frequency counting to a weighted 
situation. 
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The growing demand for high throughput stream processing in 
high-speed network monitoring calls for designing efficient paral¬ 
lel weighted frequency counting algorithms, and this is the focus of 
this paper. 

2.3. Space Saving algorithm 


Algorithm 1 . Space Saving algorithm 


1 

2 

3 

4 

5 

6 

7 

8 

9 

10 
11 
12 


n f- [i]；N <- 0；i <- 0; 

H = InitHeap{ny, /* return a heap with n empty elements *j 

for each {v, w) do 

N = N +w; 

if (i = LOOKUP{v)) then 

IncreaseFreq(H, i, w); /* increase frequency of v */ 

else 

i = FindMin[H)', /* f ind the minimum item */ 

ReplaceElement(i, V)\ /* replace minimum item with v ♦/ 
IncreaseFreq(H, i, w); 

end 

end 


We choose to parallelize Space Saving [4] which is able to han¬ 
dle weighted updates while delivering the best throughput among 
the algorithms previously proposed [16]. Space Saving is a deter¬ 
ministic algorithm with fixed space bounds which leads to very 
simple implementations in practice. Algorithm 1 gives an overview 
of Space Saving with weighted updates. The operations used in 
Algorithm 1 are summarized below: 


• InitHeap (n) return a heap H with n empty elements. 

• LOOKUP (v) find the element with item name v. 

• IncreaseFreq (H,i,w) increase the frequency of element i within 
heap H by w. 

• FindMin (H) return the element in heap H whose frequency is 
minimum. 

• ReplaceElement (i, vj replace the item name of element i with v. 

Space Saving maintains a simple min-heap with \l] elements, 
where s is the user-specified error bound. That is to say, Space 
Saving monitors only |"i] counters while providing 6-deficient an¬ 
swers. If the item with name v being processed is already in the 
heap, then its frequency count is incremented by w. Otherwise, 
find the element with minimum frequency, replace its item name 
with v and then increment the frequency count by w. Of course, if 
the alphabet size of the stream \A\ < 「幻， Space Saving requires 
only \A\ counters at most. The LOOKUP operation in Algorithm 1 
can be implemented using a Content Addressable Memory 
(CAM) or a hash table. When a query is posed, Space Saving scans 
through the heap and returns the items whose frequency is great¬ 
er than (/>N. 


3. Overview of parallel design 

We take the data decomposition (data-level parallelism) [20] 
technique to parallelize weighted frequency counting. In this form 


Table 1 

Characteristics of traffic traces used. 


Traces 

Packets (million) 

Flows (million) 

Duration 

CERNET 

1940 

85 

9h 

CAIDA-OC48 

420 

27 

1 h 

CAIDA-OC192 

400 

27 

18 min 


of parallelism, the incoming data stream is equally distributed 
among threads which perform the same work just on different data 
items. Suppose the data stream 5 is equally divided into m sub¬ 
streams Si,S 2 ,.. .,S m . Each sub-stream S, consists of a sequence of 
tuples ( v, t, c iiVtt ) ordered by the timestamp t, where 1 ^ i < m is 
the id of the sub-stream, ve U(U = {1,.. .,/c}) is the item name, 
Ci, v , t > 0 is the weight of the tuple. Thus S is the union of sub¬ 
streams S^,S 2 ,.. .,S m reordered by the timestamp. 

Definition 2 (Item frequency in sub-stream S,). The frequency of 
item vdX time t in sub-stream S z is the total weights of tuples with 
item name v throughout S it 

Consequently, the frequency of item VdX time t in data stream S 
is/,(t) = ElJvAt). Let N,(t) = EtAKt) and N(t) = ElM) de- 
note the total frequencies of all items at time t in S,- and S, respec¬ 
tively. Accordingly, N(t) = the rest of the paper, we 

drop reference to t as we are interested only in the “current” value 
of frequencies. 

Lemma 1. The final outcome of the frequent items is invariant to the 
order in which the stream elements are processed. 

This directly follows from the definition of the frequency count¬ 
ing problem. According to Lemma 1, the outcome of the frequent 
items in the global stream is invariant to the order in which the 
elements in the sub-streams are processed. Therefore, as long as 
all the elements in sub-streams are processed, Space Saving will 
guarantee that all the frequent items will be reported. 

Recall that for each item being processed, Space Saving first 
looks up the item in the hash table, and then updates the item in 
the heap. Since each sub-stream is assigned a thread which pro¬ 
cesses the items, the manner in which the threads share the hash 
table and heap determines the design of the system. We propose 
two designs and provide a detailed experimental evaluation of 
both designs with real network traffic traces. 

In our experiments, we track the heavy hitter flows defined by 
the famous five-tuple and consider TCP and UDP traffics only. We 
run experiments on 2 Intel Quad-Core Xeon E5405 processors 
[11]. Each processor has 4 cores, each corresponding to a hardware 
thread and operating at a clock speed of 2.00 GHz, and the cores 
share a L2 Cache of 12 MB. The machine has 4 GB available main 
memory and runs CentOS with kernel 2.6.18-92.el5PAE. All the 
algorithms are implemented in C++ and complied using g++ 4.1.2 
with Level 2 optimization. Common subroutines are used for sim¬ 
ilar tasks (e.g., the same flow hash function of “XOR Five-Tuple 
Folding” [21]) to increase comparability. 

Three real traffic traces are used in the experiments for illustra¬ 
tion reason. The CERNET trace is a TCP packet header trace col¬ 
lected at an OC-48 link of CERNET (China Education and Research 
Network) on May 31, 2007 in both directions. The CAIDA-OC48 
trace [22] is an anonymized packet header trace measured at an 
OC-48 west coast peering link on August 14, 2002 and we use 
the first hour traffic of one direction (Direction-1). The CAIDA- 
OC192 trace [23] contains anonymized passive traffic traces from 
CAIDA’s equinix-sanjose monitor on OC-192 Internet backbone 
links on July 17, 2008 and we use the first 18 min traffic of one 
direction (Direction-A). The characteristics of the traffic traces 
are given in Table 1. Notice that we only list the approximate num¬ 
bers of TCP, UDP packets and flows. Since it is unable to read the 
whole trace into the main memory, only the first 100 million pack¬ 
ets of each trace are loaded. And then the algorithms repeat read¬ 
ing the data for 20 times. In other words, equivalently we report 
the execution time of the algorithms after processing 2 billion 
packets of each trace. Unless otherwise stated, in our experiments 
we set e = 0.0001. 
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In this design, all the threads share the common hash table and 
heap. Since multiple threads are accessing the same data structure, 
they must be synchronized which is achieved by using locks and 
atomic operations supported by the underlying architecture. When 
using locks, the granularity is important. The coarse-grained lock 
refers to using a single lock to protect the whole data structure 
and allows only one thread at a time to access it. In contrast, 
fine-grained lock enables to lock "small pieces” of a data structure 
and allows several threads to access the data structure concur¬ 
rently. Generally speaking, the fine-grained lock is more efficient 
than the coarse-grained lock in multiple-thread environment, 
therefore we choose the fine-grained lock design. 

Fig. 1 presents a chained hash table and a heap with fine¬ 
grained locks. In this design, each bucket has its own read-write 
lock (also known as the multi-reader lock [24]) which allows mul¬ 
tiple readers to hold the lock simultaneously provided that a writer 
does not hold the lock, and each hash entry (i.e., element in the 
heap) has one mutual-exclusion (often abbreviated to mutex) lock 
to protect the data therein. Therefore, there are two levels of syn¬ 
chronization in this design: 

Hash level synchronization: Recall that whenever an item arrives, 
Space Saving involves the LOOKUP operation which acquires the 
read lock on the read-write lock of the hashed bucket so that 
the writers are blocked while the readers are searching through 
the bucket. If the item is not in the heap, Space Saving needs to 
replace the element with minimum frequency. The ReplaceEle- 
ment operation might need to move the minimum element 
from one bucket to another in the hash table, thus a thread per¬ 
forming this operation needs to obtain the write lock on the 
read-write lock of the source and destination buckets in the 
hash table. Since there can be several elements within a bucket, 
a write lock on the bucket prevents other threads from operat¬ 
ing (both LOOKUP and ReplaceElement) on any elements within 
the bucket. 

Heap level synchronization: The FindMin and IncreaseFreq opera¬ 
tions in Space Saving involve reading and writing the heap 
element being processed, and a thread performing such opera¬ 
tions needs to acquire the mutex lock of that element. That is to 


say, multiple threads operating on the same element will be 
serialized which results in only one thread operating on the ele¬ 
ment in heap. Of course, the queries also need to acquire the 
mutex locks of the elements when scanning through the heap. 

In a way, the data structure used in this fine-grained lock design 
is the combination of a striped hash table [25] and a Hunt heap 
[26]. Since there is only one global heap, the space complexity re¬ 
mains unchanged, i.e., 0(1). 

In this experiment, we evaluate the maximum throughput of 
the fine-grained lock design which means a thread always has 
some element to process whenever it has finished processing the 
earlier element. Fig. 2 plots the experimental execution time of 
the fine-grained lock design with three different real traffic traces. 
Along x-axis we plot the number of threads and along y-axis we 
plot the execution time in milliseconds, and different lines corre¬ 
spond to different traces. The total number of packets processed 
for each trace is 2 billion, which means if there are two threads 
simultaneously running, each will process 1 billion packets, 
respectively. From this figure, we can see that with the increase 
of threads (<8), the execution time does not decrease but increase. 
Fig. 3 plots the corresponding speedup of this design. The number 
of threads is plotted along the x-axis while the speedup obtained 
compared to the execution time of a single thread without any 
locks is plotted along the y-axis. From this figure, it can be seen 
that the speedup decreases with the number of threads (<8). 

From the above, we can see that adding more threads in the 
fine-grained lock design will worsen the performance instead. 
Probably it is mainly because that each thread needs to acquire 
multiple locks for each element being processed which means 
the synchronization overhead is very high. Since there are two lev¬ 
els of synchronization, even if there are multiple threads, they are 
serialized at these contention points. An important point to be 
noted here is that the performance of the system degrades when 
the number of threads is increased from 1 to 8, and beyond that, 
the performance remains almost steady. Since the machine used 
for the experiment has 8 cores which means only 8 threads can 
run in parallel. As a result, in 1-8 threads, the threads are operating 
really in parallel and the effect of contention is evident. Therefore, 
the high overhead due to contending and waiting for shared re¬ 
sources makes the fine-grained lock design inefficient. 


Bucket Element 



Fig. 1. A chained hash table and a heap with fine-grained locks. 
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5. Shared nothing design 

In the shared nothing design, the threads do not share any data 
or state information, and each thread has its own independent lo¬ 
cal data structure, i.e., a hash table and a heap, therefore there is no 
need for synchronization. The idea is to simulate sequential execu¬ 
tion and run multiple copies of the same algorithm executing in 
different threads. If there are n threads simultaneously running, 
then there are n different local data structures. According to 
whether or not these local data structures need to be merged into 
a global data structure to answer the queries, the schemes can be 
divided into two categories. The first one is that same elements 
go to same threads, thus there is no need for merging in this case. 
However, the load balancing among the threads will be an issue 
when the input data distribution is skewed which is a property 
well known to real-world data streams [27], as a result some 
threads will be overloaded, while others will be lightly loaded. In 


this paper, we consider the more general case in which same ele¬ 
ments might go to different threads, and therefore the local data 
structures need to be merged into a global data structure to answer 
queries. Das et al. [12] propose a similar method called "Indepen¬ 
dent Structures” for parallelizing frequency counting in multiple 
unweighted data streams in the multi-core architecture. In this 
method, each thread maintains a local heap with \ elements to pro¬ 
vide the e-deficient answers. The local heaps need to be merged 
periodically to obtain the global structure from where the queries 
can be answered. There are several disadvantages. First, the merge 
overhead is dependent on the query frequency, the greater the 
query frequency, the higher the number of merges and the higher 
is the overhead. Second, the merge overhead increases with the 
number of threads, and for smaller values of the error bound e. 
Third, most importantly, this method cannot provide continuous 
answers which mean it is not real time and online. This is because 
that it can only give accurate e-deficient answers from the global 
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structure right at the time of merging, and is not able to guarantee 
that the frequent items retrieved from the global structure are 
truly frequent items in the global stream at other times. Compared 
to the “Independent Structures” method, PRIM proposed in this pa¬ 
per is real time and delivers very low merge overhead. Therefore, it 
is able to provide much higher processing throughput than previ¬ 
ously proposed methods. 

5.1. Precision integrated method 

In this section, we introduce the precision integrated method 
(PRIM) which can effectively parallelize weighted frequency count¬ 
ing. Firstly, we need to introduce two definitions below: 

Definition 3 (Arithmetic imprecision). It is a numerical inconsis¬ 
tency between the estimated frequency of an item relative to the 
true frequency. 

For example, Space Saving has the arithmetic imprecision since 
it only maintains approximate frequencies of the processed items. 
However, the key difference between PRIM and other previously 
proposed methods is the temporal imprecision concept below. 

Definition 4 (Temporal imprecision). It is a real time bound on the 
delay from when an update on the frequency in local data 
structures occurs until it is reported to the global data structure. 

Thus, there will be two kinds of imprecisions in PRIM and our 
object is to bound the total imprecisions so that the final answers 
retrieved from the global structure are e-deficient. 

The overview architecture of PRIM is shown in Fig. 4. The sys¬ 
tem consists of m local threads and a global merging thread. The 
local threads observe a continuous sub-stream of updates which 
will communicate with the merging thread under certain condition 
in order to ensure that the merging thread is able to accurately an¬ 
swer queries over the global stream. All the threads run the same 
Space Saving algorithm and each maintains an approximate struc¬ 
ture locally, i.e” a-approximate (0 < a < 1) structure for local 
threads and y-approximate (0 < y < 1) structure for the merging 
thread. Besides the existing entry fields in Space Saving, we need 
to add the new frequency increment (A) field which tracks the 
increment to the frequency since last update to the merging 
thread. The frequency increment filed is initialized to 0. Finally, 
the protocol of tracking e-deficient frequent items in PRIM can 
be described as follows. 

1. Each local thread i uses Space Saving to maintain an a-approx¬ 
imate structure for the items in sub-stream S,. When a new 

update (v ， t ， Ci， v ， t ) arrives, if v is in the a-approximate structure, 


then increment A,> = A,> + Cf, 以 ， where A I>V denotes the fre¬ 
quency increment field of item v in thread i. Otherwise, if v is 
not in the a-approximate structure, after replacing the mini¬ 
mum frequency item with v according to Space Saving, set 
\v = When A /(V ^ pN it thread i sends a message (v, A />v ) 
to the merging thread, and resets A l v to 0, where N,- denotes 
the total frequencies of all items in sub-stream S, until now. 

2. The merging thread receives the messages from the local 
threads and uses Space Saving to maintain a y-approximate 
structure. 

From the above protocol, we can see that the local thread i will 
not report the frequency update of item v to the merging thread 
until Af, v 彡 pNu We call this 0-delay in PRIM which leads to the 
temporal imprecision in frequency counting. On the other hand, 
0-delay greatly reduces the merge overhead of PRIM as it does 
not periodically merge all the local structures but only updates 
the items violating the proportional threshold. 

5.2. Correctness analysis 

In this section, we prove that PRIM satisfies the e-deficient 
requirement. For convenience, Table 2 summarizes the notation 
introduced in previous sections, along with new notation we will 
introduce in this section. 

Preliminary 1. Let min be the minimum frequency in Space Saving, 
Vv e U, if v is not in the approximate structure, then use min as the 
estimated frequency of item v. 

Since Space Saving only stores a limited number of items in the 
approximate structure, we use Preliminary 1 to estimate the fre¬ 
quencies of items which are not in the approximate structure. 

Lemma 2. VveU, + aN f . 

Proof. There are two cases for the inspected item v: 

Case 1 : v is in the a-approximate structure, then according to 
Space Saving, the conclusion holds obviously. 

Case 2: v is not in the a-approximate structure, then according 
to Preliminary 1, f vi = min^ ocN“ Since f Vti ^ min 
(according to Space Saving), f v ，i = min ^ f v ,i. Thereby, 

fv,i ^ fv,i < f"v，i + aNj. 

As discussed above, \/v eU, f vi ^ f v ，i ^ f V i + aN,-. □ 


Merging thread 



Fig. 4. Overview architecture of PRIM. 
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Table 2 

Meaning of selected symbols. 


Symbol 

Meaning 

S 

Global stream 

N 

Total frequencies in S 

fv 

Frequency of item z ； in S 

Si 

Sub-stream i 

Ni 

Total frequencies in S,- 

fv,i 

Frequency of item v in S, 


Estimated frequency of item v in thread i 

ki 

Frequency of item v received from thread i 

Tv 

Frequency of item v received from all threads 

fv 

Estimated frequency of item v in merging thread 


Lemma 3. \/v e U, f^i - {cc + p)N t 

Proof. Since local threads only send the frequency increment to 
the merging thread, it is obvious that f v ， i 《 f Vji . In the following, 
we prove that the left side of the inequality holds. There are two 
cases for the inspected item v: 

_Case 1: v is not in the^ a-approximate structure, we have 

f V i — min 彡 Thereby, /" i — odVf 彡 0. Since f V i ^ 0, f V [ - ocNi 
Thus f v4 ~(cc + P)Ni ^f^i. 

Case 2: v is in the a-approximate structure, let us consider the 
last time when v returned back to the a-approximate structure. 
Assume at that time, the total frequencies for S, is Nj, the frequency 
of item v received from thread i is f v /，the minimum frequency is 
min r . Thereby, min r < ocN\. Let A l>v = + A i>Vt2 denote the fre¬ 

quency increment from v since last returning back, where 
denotes the frequency increment which has been reported to the 
merging thread, denotes the remaining frequency increment, 
therefore we have A itVt2 K Consequently, according to Space 
Save we have, f v4 = min , + A,>,N, ^ N ； + A i；z „ + A ⑻ .As 

a result, f Vy i — (a + jS) Nj = min r + - aNj- pNi = min , + 

-aN, + Aj iZ；> 2 - pNi < mi'n’ + Ai，"，i - aN,- < min' + A!>，i - a(Nj- + △!>)= 
min ： -aN| + A,> ， i 二 ^ 厶⑻ -aA,^ + 厶⑻ - aA t> : 

aAf，" (fv,i. Thus fp,i— (a 

As discussed above, the left side of the inequality holds too. 
Therefore, WveU, f Vyi — (a + p)N t □ 

Lemma 4. Mv eU : f v - (oc-\- p)N 

Proof. According to Lemmas 2 and 3， we have Mv e U : f vi — 
(a + W Since ^ = EZJvj and N = 

we have \/ve U, f v -(oc + p)N^f^^f v . □ 

Lemma 5. Wv e U,fv ^f v ^Jv + yN. 


Proof. According to Lemma 6, we have — (a + ^) < ^ ^ ^ + r. In 
order to satisfy the first property of e-deficient, i.e.，output all item 
z ； satisfying/ v > </>N, the merging thread just needs to report all item 

v satisfying ^ > 珍一 a — p . When 令 —(/) - e , we have 令 一 e — (a + 芦) 

彡鲁彡 命 一 e + y，therefore we just make sure that (/) — e + y ^ ^ 
—a _ p，no item v satisfying f v < ( 沴一 e)N will be reported. As a 
result, ifoc + p + y^e, the second property of e-deficient will be sat¬ 
isfied. The maximum error between estimated frequency and true 
frequency is Max(a + p y y)N. Since cc + p + y Max(oc + p,y)N ^ eN. 
Therefore, the third property of e-deficient, i.e., errors between true 
and estimated frequencies are at most eN, is satisfied. 

As discussed above, if oc + p + y ^ e and the merging thread 
outputs all items of which the estimated frequencies > (</> 
-a - p)N, then PRIM is e-deficient. □ 

5.3. Complexity analysis 


Lemma 7. The total number of messages from m local threads to the 
merging thread is no more than flog^, where 0< p< 1 and N is the 
total frequencies. 

Proof. Since local thread i send a message to the merging thread 
after N, is increased by a factor of 1 + 0， the number of messages 
from local thread i is bounded by / 0 ° g H Therefore, the total num¬ 
ber of messages sent by all local threads is bounded by 




iQ g (^) 

log(l+j3)' 


⑴ 


We use the fact that = JXi logN, = log (nSi^O* anc ^ 

N, is maximized when Vi : N,- = Since for 0 < < 1, 

log( j, « i the number of messages from all local threads to the 
merging thread is no more than j log^. □ 


Preliminary 2. Suppose one thread can support Q comparison and 
swap operations per second. Since one update in a heap with n ele¬ 
ments requires at most log (n) comparison and swap operations, one 
thread can support at least updates in the heap per second. 


Preliminary 3. For clarification purposes, we consider the most sim¬ 
ple case where the arriving traffic rate is constant, i.e., N(t) = pt 
(bytes), where p > 0 is a constant. 


Theorem 2. Assume the packet arrival rate is less than or equal to 
(the lower bound of total throughput of m local threads), PRIM 


spends no more than 二 : ((f)) seconds on catching up with the packet 

arrival rate, and the total space required by m local threads and the 
merging thread is m i ^ where 0<oc,p,y< 1. 


Proof. Using the same proof method as in Lemma 2, it is easy to 
prove that Wv eU, f v ^f v ^f v -\-yN. □ 

Lemma 6. Mv eU, f v -(oc + p)N ^f v ^f v -\-yN. 

Proof. According to Lemmas 4 and 5, we have Mv g U, 

/ y — (oc + p)N ( f v ^ /y + yN. □ 

Theorem 1. If oc + p + y^e and the merging thread outputs all items 
of which the estimated frequencies >((/) - oc- p) N, then PRIM is e- 
deficient, where 0 < cc,p,y< J, e is the error bound , 小 is the support 
threshold and N is the total frequencies. 


Proof. Let M(t) denote the total number of messages from all local 
threads to the merging thread, then according to Lemma 7, 
M(t) ^ j ~ j ^°Sm* Therefore, the message arrival rate in 
the merging thread is M'(t) ^ (messages/s) (derivative of M(t)). 
Since m local threads generate messages which are processed by 
the merging thread, and from this perspective, the local threads 
and merging thread develop a similar producer-consumer rela¬ 
tionship. In this paper, we adopt the buffer implementation with 
semaphores [28] for the producer-consumer synchronization. 

To begin we assume that the buffer is unbounded, i.e., the local 
threads are able to send messages without waiting for the merging 
thread to process. Therefore, in this case the update throughput of 
local threads will not be restricted to the update throughput of the 
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merging thread. Since M (t) 彡贵 ， the message arrival rate will be 
less than or equal to (the lower bound of the update 

throughput of the merging thread) within m 1 忠 7 ) seconds. 

However, in practice the buffer is bounded, i.e.，the local threads 
have to wait for the merging thread to process the messages when 
the shared buffer is full. Since the packet arrival rate is no more 

than the total number of packets arriving within m 


seconds is less than or equal to 


m 2 log (}) 

* 


Because the update 


throughput of PRIM is at least Q av the time of processing 


packets will be no more than 


MW’ 

rn^og 2 (I) 
Wlog (1) 


m 2 log (^) 


seconds. That is to say, even if 


the packet arrival rate is equal to after :?:((!)) seconds, the 
message arrival rate in the merging thread will be less than or 
equal to |og Q ⑷ ， which means the update throughput of PRIM will 

not be restricted to the update throughput of the merging thread 
any more. 

Since m local threads and the merging thread maintain a- 
approximate structures and y-approximate structure, respectively, 
the total space is + 1 obviously. 


In summary, PRIM spends no more than 


m 2 10^(1) 


seconds on 


catching up with the packet arrival rate, and the total space 
required by m local threads and the merging thread is m a+ y- □ 
If the packet arrival rate is bigger than the total update through¬ 
put of local threads, we can increase more local threads to improve 
the total throughput. From Theorem 2, it can be seen that the up¬ 
date throughput of PRIM will increase with time. At first, the up¬ 
date throughput of PRIM is limited to the update throughput of 
the merging thread. As time goes on, the update throughput of 
PRIM is increased up to the packet arrival rate. 

Corollary 1. The maximum throughput of PRIM is at least 
Proof. This is a direct consequence of Theorem 2. □ 


Corollary 2. When p is fixed, PRIM requires at least 2 memory 
space, where m is the number of local threads, e is the error bound. 


Proof. According to Theorems 1 and 2, we know that oc + p + y ^ e 
and the memory cost of PRIM is mi + y. It is easy to prove that the 
memory space is minimized when a — m^, , 
imized value is 2 玲 . □ 


5.4. Experimental evaluation 

In this experiment, we evaluate the maximum throughput of 
PRIM as in the fine-grained lock design. The parameters of PRIM 
are m = 8,(x = y = 0Ae, p = 0.8e. Fig. 5 plots the experimental execu¬ 
tion time of PRIM with three different real traffic traces. From this 
figure, we can see that with the increase of threads (^ 8 ), the exe¬ 
cution time decrease rapidly. Fig. 6 plots the corresponding speed¬ 
up of PRIM. From this figure, it can be seen that the speedup 
increases with the number of threads ( 彡 8 ). Therefore, Figs. 5 and 
6 demonstrate the excellent scalability of PRIM. 

From the above, we can see that adding more threads in PRIM 
will effectively improve the performance. Note that since the ma¬ 
chine only has 8 cores, the performance drops when the number 
of threads increases beyond 8 . 

Theoretically, the maximum throughput of PRIM is m times of 
the single thread throughput according to Corollary 1. However, 
in practice, the speedup of PRIM is less than m especially for large 
m. This is because that according to Theorem 2, the setup time of 
PRIM (refers to the time needed to catch up with the packet arrival 
rate) increases with m. Fig. 7 shows the throughput of PRIM as a 
function of the increasing time for three different traces. We can 
clearly see that the throughput is very low at the beginning, then 
increases rapidly, at last changes to be steady. The setup time in 
Fig. 7 is around 1000 ms. As a result, the speedup of PRIM will be 
less than m in practice. 

Table 3 lists the relationships between the performance metrics 
and the parameters (a, p and 7 ). In this table, the symbols t and J, 
denote, respectively, the weak proportional and inverse relations 
when the parameters are in the logarithmic expressions (e.g., 
log (i)), and the symbols 介 and 从 denote, respectively, the strong 
proportional and inverse relations. From Table 3 we can see that 
parameter a has relations with throughput, memory cost and setup 
time, parameter y has relations with memory cost and setup 
time, only parameter p is just involved with setup time (strong 
inverse relation). Therefore, in practice we can first determine 


6e+5 
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Fig. 5. Execution time of PRIM. 
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Fig. 7. Throughput versus time of PRIM (m = 8). 


to Corollary 2. In this case, a = ^(e - p) which is very close to 
e - 0 for large m. Therefore, the throughput of PRIM in the memory 
cost optimization case is also near optimal as a result of the weak 
proportional relation between a and the throughput. 

In the following experiment, we explore how different choices 
of parameters affect the performance of PRIM (m = 6, e = 0.0001). 
We vary p from 0.01 e to 0.9e, and determine the other parameters 
(a and y) according to Corollary 2 (a = ^(e - p) and y = 爲 ). 
Fig. 8 plots the corresponding parameter values of a and y. From 
this figure we can see that a and y decrease with the increase of 
p as a result of oc + p + y = e. Fig. 9 presents the memory cost which 
is 2 诗 according to Corollary 2. Here we use the number of coun¬ 
ters needed to be maintained in the heaps as surrogate for the 
amount of memory required. As shown in Fig. 9, the memory cost 


the parameter p according to the setup time requirement, and then 
choose appropriate parameters a and y. Since both a and y have 
strong inverse relations with memory cost, we can choose appro¬ 
priate values of a and y to minimize the memory cost according 

Table 3 

Relationships between the performance metrics and parameters (a, p and y). 


Performance metrics ct y ^ 


Throughput ^ 歲 ) 

T 



Memory cost (= m J 




Setup t.me 

T 

1 
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P 

Fig. 8. a(y) versus p of PRIM (m = 6). 


of PRIM increase rapidly with p even in the memory cost optimiza¬ 
tion case. Fig. 10 plots the setup time which decreases rapidly with 
p. In other words, with the increase of p, the time needed to catch 
up with the packet arrival rate will be greatly reduced as a result of 
the strong inverse relation between the setup time and p according 
to Theorem 2. Fig. 11 presents the throughput which is expected to 
decrease slightly with p as a result of the weak proportional rela¬ 
tion between the throughput and a (decreases with p, see Fig. 8). 
However, contrary to the expectation, the throughput increases 
slightly with p instead. Probably it is mainly because that accord¬ 
ing to the Space Saving algorithm, the minimum frequency ele¬ 
ment in a small heap is replaced more frequently than that in a 
larger one which results in a higher overhead due to the relatively 
high cost ReplaceElement operation as compared to the LOOKUP 
operation in the hash table. To sum up, in the memory cost optimi¬ 


zation case, parameter p has a great influence on both the memory 
cost and setup time, but a little effect on the throughput. 

6. Conclusion and future work 

In this paper, we consider the problem of parallelizing weighted 
frequency counting in the context of multi-core processors. Since 
the naive fine-grained lock design reveals high contention over¬ 
head, a novel method PRIM is proposed. In PRIM, each thread has 
its own independent local data structure which leads to the re¬ 
moval of contention for shared resource. However, the local struc¬ 
tures need to be merged into a global structure to answer the 
queries. PRIM makes use of the temporal imprecision concept to 
significantly reduce the merge overhead at the cost of relatively 
large memory space used. Both the theoretical analysis and real 
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Fig. 9. Memory cost versus p of PRIM (m = 6). 
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Fig. 11. Throughput versus (i of PRIM (m = 6). 


traffic experiments demonstrate the excellent scalability of PRIM. 
However, in practice it will take some time to catch up with the 
packet arrival rate which increases with the number of concurrent 
threads. In the future, we will work on how to reduce this setup 
time. 
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网络信息的检索与挖掘回顾 
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摘 要： 随着互联网的蓬勃发展，海量的网络信息成为了迄今为止最大规模的数据资源。如何利用海量网络信息， 
为人们提供智能应用，更好的解决人们的信息需求，成为了互联网领域的挑战性问题，也催生了对海量网络信息检 
索与挖掘的广泛研究。该文从信息表达、信息检索与信息挖掘三个方向入手，结合近年来对网络信息相关领域的 
研究与实践，对网络信息检索与挖掘的发展变化历程、目前存在的问题以及未来的发展趋势进行总结和分析。 
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A Retrospective of Web Information Retrieval and Mining 

CHENG Xueqi, GUO Jiafeng, JIN Xiaolong 
(Institute of Computing Technology, Chinese Academy of Sciences，Beijing 100190， China) 

Abstract : With the vigorous development of the Internet, the massive Web information has evolved into the largest 
data source thus far. As a consequence，how to utilize the massive Web information，provide intelligent applications 
to users，and well satisfy their information needs，have become a challenging issue in the Internet community, which 
gives rise to extensive studies on Web information retrieval and mining. Upon the recent research progress and prac¬ 
tices in Web information related fields，this paper summarizes and analyzes the history, problems，and trends of 
Web information retrieval and mining from three specific perspectives，namely, information representation, informa¬ 
tion retrieval，and information mining. 

Key words : information representation； information retrieval； information mining 

论坛上的各类文本、图片、音频、视频数据，也包括了 
1引言 大量的用户行为数据，例如，用户的查询、浏览、打 

分、评论等行为产生的数据，还包括了各类结构关系 
随着互联网在人们日常生活与工作中的广泛普 数据，例如，链接关系、跟随关系。海量的网络信息 
及和各种互联网应用的层出不穷，爆发式增长的网 是一把双刃剑，它既是超大规模的人类知识宝库，具 

络信息已经使互联网成为了人类迄今为止规模最大 有难以估量的价值，同时如何从非结构化、富噪声、 

的数据资源。据 Google 声称，他们在2008年索引 高维稀疏的海量网络信息中发现有价值的知识，已 

的网页数据量已经达到1万亿，而社交网站 Twitter 经成为了网络信息处理与服务领域面临的巨大挑 
在2011年上半年每天生成的 tweet 数据就高达2 战。围绕着日益庞大的网络信息，检索与挖掘成为 
亿条。互联网上的海量信息，既包括了传统意义上 了这个领域研究的工作重点。回顾互联网发展的近 

的网页内容数据，例如，来自新闻、博客、微博、社区、 30年，有大量的研究与应用工作沿着这个方向在不 
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断探索发展并取得了一些重要的成果。 

在网络信息的检索与挖掘领域，相关工作大致 
可以分为三个方向，即信息表达、信息挖掘以及信息 
检索。对信息表达的研究是信息检索与挖掘的基 
础。为了能够更好的让网络信息为用户服务，人们 
首先需要理解信息，进而正确地表达 信息； 对信息挖 
掘的研究，则主要关注如何从海量网络信息中发现 
内在规律，挖掘其蕴含的 知识； 而对信息检索的研 
究，则关注如何帮助用户快速高效的从海量信息中 
获取相关内容，以满足用户需求。 

本文从这三个方向人手，简要回顾相关研究工 
作的进展，尝试厘清其发展变化的历程和趋势，一起 
回顾并总结在网络信息探索研究的道路上，我们已 
经走了多远？我们未来将走向何方？ 

2信息表达 

信息表达的方式代表了人们对信息的理解和认 
识程度，良好的信息表达形式是机器来求解问题的 
基本前提，对问题的有效解决起着举足轻重的作用。 
当前，虽然网络上各种类型的信息（包括文本、图片、 
音频、视频等)呈现出爆炸性的增长趋势，但文本仍 
然是信息交流和传播的主要载体，因此本文主要关 
注如何对文本信息进行表示建模。对文本信息进行 
表示和建模其目的是让计算机能够正确理解人类的 
语言，能够分析和表达出其中的语义信息，这是一个 
非常有趣但又极具挑战的问题。文本信息的表达经 
历了从浅层词语表达方式到深层语义表达方式这样 
一个历程，其中代表性的工作包括了向量空间表示 
( VSM ) [1] 、 隐语义索引 ( LSI ) S 1 和概率话题模型 
( PLSA 、 LDA )[ 3 - 4] 等。 

早在1975年就已被提出的向量空间表示，就是 
将文档表示成具有代表性关键词的向量形式，这组 
关键词称为索引词项。向量中的每一个分项对应一 
个索引词项，每个分项的数值定义为权重。这样，文 
档就可以看成是由索引词项所构成的向量空间中的 
一个点。索引词项的权重体现了该词项描述文档语 
义内容的能力和重要程度，具有多种计算方式。经 
典的计算方式的是 Salton 等人 [5] 提出的 TF - IDF 权 
重，其中 TF (Term Frequency ) 是词项频率，即词项 
在文档中的出现频率，体现了词项对文档的重要程 
度； IDF ( Inverse Document Frequency ) 是逆文档频 
率，体现了词项对文档的区分程度。 TF - IDF 这种 
计算模式在一定程度上体现了类内聚合性和类间差 


异性，在文本检索和挖掘领域内得到了广泛的应用 
并取得了显著的效果。正所谓“瑕瑜互见”，向量空 
间表达方式虽然具有很多优点，但是没有能力处理 
自然语言的两个经典 问题： 一义多词 ( synonymy ) 
和一词多义 （ polysemy ) 。另外，向量空间表达方式 
容易产生高维稀疏性问题。 

因而在1990年， Deerwester 等人 [2] 提出了隐语 
义分析 （Latent Semantic Analysis , LSA)。LSA 的 
基本思想是将文档由高维表示空间映射到低维表示 
空间上。具体来说，就是通过奇异值分解 （ SVD )， 
将文档从词项空间映射到隐语义空间上。 LSA 的 
最终目的是为了表现词语与文档，词语与词语，以及 
文档与文档在隐语义空间内的语义关系。 LSA 在 
很多文本挖掘的实际问题中得到了应用，已经被证 
明是一个很有效的分析方法。但是， LSA 方法的理 
论基础不完整，不能令人满意。另外，通过 LSA 方 
法得到的隐语义层无法得到很好的解释，而且不能 
真正解决一词多义的现象。 

为此，在20世纪90年代末， Hofmann ™ 提出了 
概率隐语义分析 （Probabilistic Latent Semantic A - 
nalysis , PLSA ) 。 PLSA 的基本假设是文档中含有 
多个潜在的话题，并且文档中的每个词语产生于混 
合话题模型，其中话题用词语的多项式分布来表示。 
通过 PLSA 可以使用隐语义空间表示文档，其中隐 
语义空间的每一维就对应一个话题，所以 PLSA 也 
能够起到降维作用。相比于 LSA ， PLSA 具有更为 
坚实的理论基础，对话题也有清晰合理的解释，同时 
也解决了一词多义的现象。然而 PLSA 并不是一 
个真正的产生式概率模型，因为话题的选择同具体 
的文档相关，同时也带来了待估参数过多的问题。 

为了解决上述问题， Blei 等人 [4] 在2003年提出 
了 LDA 话题模型。该模型的基本假设是文档的话 
题选择从一个先验分布 （ Dmchlet ) 中产生，因此它 
是一个贝叶斯模型。 LDA 具有了对新文档话题预 
测的能力，同时 LDA 模型也解决了 PLSA 模型需 
要估计的参数过多的问题。 

概率话题模型（如 PLSA 和 LDA ) 的提出，对网 
络信息检索与挖掘具有重要的意义。随着研究不断 
深人，话题模型被广泛的应用在各个领域，包括文本 
挖掘 [6] ，文档检索 [7] ，引用分析 w ，社会网络分析 [9] 
以及情感分析 [1 ° ] 等。国内近几年对于信息表达方 
面的研究也取得了不少成果，很多研究工作提出了 
改进的话题模型 [11 12] ，以增强已有话题模型的学习 
能力，解决其跨领域的问题等等，从而使其能更好地 
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应用于文本信息的表达。 

尽管对信息表达的研究历经了很长的时间，但 
是对于海量网络信息的建模还面临着很多新的挑 
战。例如，对于海量文本信息的建模，我们需要模型 
能够对更大规模的参数空间进行有效的学习，需要 
能够有效的建模并解决信息的稀疏性所带来的问 
题，需要能够对动态演化的网络信息进行合理的表 
达。此外，对于图片和多媒体信息数据，我们也需要 
进一步探索其建模与表达方式，以便能够更加有效 
的表达其内在的语义信息。 

3信息检索 

作为用户与数据进行交互的主要手段之一，信 
息检索的目的在于让用户更加容易的访问到所需要 
的信息。信息检索融合了数据的表示、组织、存储与 
检索等多个方面，包括了信息获取、信息索引、查询 
处理、信息排序、结果反馈等基本环节。为了能够提 
高信息检索的质量与效率，研究人员对各个基本检 
索环节都展开了深人的研究，其中包括了如何实现 
对海量网络数据高效友好的抓取 [13] 、对索引结构的 
不断优化 [14] 、对用户查询的处理与分析 D5 \ 对结果 
排序质量的不断提高 [1617] 等等。此外，还包括了对 
相关反馈的探索、对检索性能评价、跨语言检索、多 
媒体检索等研究。尽管信息检索领域涉及的研究工 
作十分广泛，但其围绕的核心问题始终是如何使用 
户需求和数据实现更好的匹配。检索模型作为用户 
查询与数据进行匹配过程的形式化表示，可以说是 
解决该核心问题的关键点。由于篇幅所限，我们下 
面就以检索模型的演化来窥视信息检索技术的 
发展。 

相关性是信息检索中最基本的概念，它反映了 
用户对于检索结果的最基本的要求。因此检索模型 
的首要任务是如何定义相关性。早期的布尔模 
型 [18] 认为相关性是二值的，查询用布尔表达式表 
示，待检索对象构成一个集合，对集合中的每个对象 
采用完全匹配。布尔模型的优点在于形式简单，便 
于实现，但缺陷也是显而易见的，模糊的查询需求有 
时很难转换为精确的布尔表达式，检索结果的数量 
也不可控。向量空间模型 [1] 可以很好的解决这些问 
题，它认为文档和查询都可以表示为索引词构成的 
向量，用两个向量间的相似度来估计文档对于给定 
查询的相关性，从而克服了二值相关性假设带来的 
缺陷。向量空间模型能够反映不同索引词在文档中 


的重要程度，可以根据与查询的相似程度对文档进 
行排序，从而控制输出结果的数量，其不足之处在于 
文档表示形式的假设，认为表示文档的索引词之间 
是相互独立的，这一假设实际上不符合自然语言表 
达的实际情况，未能揭示词语之间的关系。这些经 
典的检索模型成为20世纪80年代人们的研究 
重点。 

从20世纪80年代末开始，以 BM 25 [19] 为代表 
的概率模型出现，它将检索问题归结为求条件概率 
问题，有严格的数学理论基础，可以根据相关概率来 
排序从而控制检索结果的数量。但这类模型的相关 
性定义是抽象的，仍旧没有考虑关键词间的关系，需 
要手动选择最优参数。与传统的概率模型不同，统 
计语言模型 [2 ° ] 给出了相关性地清晰定义，认为每个 
文档对应一个统计语言模型，用该语 t 模型生成查 
询的概率来估计该文档与查询相关的程度。该模型 
摒弃了向量空间模型中的索引词集合的假设，利用 
语言模型建模关键词之间的上下文关系， n - gram 模 
型 [21] 便是其中的典型代表。这类模型的共同缺点 
是计算量大，需要运用平滑技术来处理数据稀疏性 
问题，而数据稀疏性目前还没有一个放之四海皆准 
的解决方案。 

近十年来，越来越多的研究工作关注排序学习 
算法。它将文档表示为特征项向量，利用成熟的机 
器学习算法自动从训练数据中学习出排序函数。其 
中的特征项既可以是文档的各种元数据信息，也可 
以是 Pag e Rank 、 BM 25 等传统检索模型的得分。它 
以损失函数为优化目标，寻找在检索领域中常用的 
评价准则（平均准确率 （ MAP )、 归一化折扣累计增 
益 （ NDCG )) 下最好的排序函数。根据损失函数所 
定义的基本单位的不同，常见的排序学习算法可以 
分为逐点的 （ Pointwise ， 如 McRank Cz2] ) ，逐对的 
( Pairwise , 如 Ranking SVM [16] 、 RankBoost [17] 、 
RankNet [18] ) 和逐列的 （ Listwise ， 如 ListMLE [ 19 ] 、 
ListNet [2 °] 、 RankCosine [21] 、 AdaRank [22] 、 SVM - 
MAP [23] 、 SoftNDCG [24] ) 三类。排序学习算法避免 
了排序函数的定义过分依赖于经验以及人工调参数 
时可能带来的过拟合问题，便于融合一些优秀的检 
索模型。而且，尽管它使用的特征和学习算法都不 
是很复杂，但在检索效果上和目前可见的性能最好 
的检索算法相当，甚至更好。另外，在理论方面，使 
用统计机器学习理论的有效工具，排序学习问题的 
理论研究也得到了深人的发展，可以保证排序学习 
算法的整体性能。它的主要缺点在于学习是一个耗 
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时的过程需要离线进行，算法的性能依赖于训练数 
据的质量。 

对检索模型的研究也一直是国内信息检索领域 
的研究热点，包括清华大学、哈尔滨工业大学、大连 
理工大学、南开大学、中国科学院计算技术研究所在 
内的多个高校和科研机构都开展了很多相关的研究 
工作。这些研究工作包括有对现有排序学习算法的 
直接改进，如通过加人 pointwise 损失函数来改善 
pairwise 方法的性能的排序学习方法 [25] ，分析排序 
学习算法对检索结果的有效性 [26] 等。 

虽然现有的检索模型能够灵活有效地建模用户 
需求与数据之间的匹配关系，但对实际数据和用户 
需求的建模还存在很多不足。例如，用户需求往往 
是复杂多样的，因此相关性不应该是对于排序结果 
的唯一要求，需要结合多样性、重要性等多个不同的 
目标进行 排序； 而且实际数据往往多源异构且含有 
大量噪音，因此像排序学习这样对训练数据的质量 
有重大依赖的算法，必须要基于能够抗噪的检索模 
型。此外，用户需求通过简短的关键词查询来表达， 
所以对用户查询的深人理解、分析进而掌握用户的 
真实查询意图，将是检索成功的重要前提。 

4信息挖掘 

信息挖掘是人们从海量的网络信息中发现其内 
在规律、获取其蕴含的知识的基本手段，它为构建更 
高智能的应用提供了基本信息原料。信息挖掘的研 
究历经了从早期围绕关系数据库中的数据信息，到 
如今面向海量的半结构甚至非结构化数据信息、用 
户产生数据信息的 研究； 从早期关注于挖掘数据信 
息的内在模式和规则，到如今更关心挖掘数据信息 
中包含的话题、实体、关系等多种类型的 知识； 在研 
究的对象、内容、方法上经历了一系列的演变，涌现 
出很多经典的模型和方法，但也正面临着很多新的 
挑战。 

模式挖掘是早期信息挖掘的主要目标，即发现 
数据信息中隐藏的模式。20世纪90年代早期，随 
着关系数据库的流行，商业应用中出现了大量事务 
型数据信息，如何从中发现有价值的模式，成为商业 
智能亟需解决的问题。1993年， ffiM 的 Agrawal 等 
人提出了通过挖掘频繁项集来生成关联规则并支持 
决策的里程碑技术 （ Aprion 算法） [27] 。例如，将关 
联度高的啤酒和尿布摆放在一起，可以同时提高二 
者的销量。由于关联规律的普遍性和有用性，频繁 


项集成为最重要的模式之一。为解决频繁项集的挖 
掘问题，涌现了很多的挖掘算法。特别地， Han 等 
人所提出的 FP - Growth 算法 [28] ，挖掘过程只需扫 
描数据库两次，从而有效地解决了 Aprkm 算法需 
要多次扫描数据库所以难以处理大规模数据的问 
题，成为一种经典算法。 

对频繁项集进行高效挖掘的研究如火如荼地持 
续到了 21世纪初，从一开始挖掘压缩的频繁项集 
(如极大频繁项集挖掘™、频繁闭项集挖掘 [3 ° ] 和 
Top - K 频繁项集 [31] )，到后来挖掘兴趣度高的频繁 
项集。频繁项集不仅可以用来计算关联规则，还成 
为聚类、分类以及众多数据分析应用的基础。随着 
信息技术的高速发展，涌现出各种海量的非事务型 
数据信息，包括文本数据、多媒体数据、空间数据、流 
数据、图数据、 Web 数据等，频繁项集的成功促使人 
们去发现其中特有的频繁模式。对于网络信息，频 
繁模式主要从三个方面进行 挖掘： 结构数据（如页 
面布局结构和超链接）、内容数据（如页面中文本、图 
片和多媒体数据）和用户使用数据信息（如 Google 
对查询日志的频繁模式分析， Yahoo ! 基于频繁模 
式从社会标注数据中挖掘用户兴趣）。 

近年来，对于网络信息的挖掘，人们更加关心的 
是如何从海量信息中获取其蕴含的内在知识，这样 
的知识包括了对命名实体、实体关系的挖掘等等。 
命名实体是现实世界中的具体或者抽象但具有特定 
意义的实体，例如，人、地点、组织等。在文本中，命 
名实体往往是信息的主要载体，是文本的核心语义 
单元，也是人们正确理解文本的基础。早期的命名 
实体挖掘研究主要集中在自然语言处理领域，是该 
领域的一项重要技术。随着 Web 上信息爆炸式的 
增长以及人们应用需求的增加，人们所关注的类型 
越来越多，粒度也越来越细，例如，电影、小说、游戏、 
科学家和政治家等等。 

早在1991年， Rau [32] 描述了一个能够抽取和识 
别公司名称的系统，该系统主要基于人工编写的启 
发式规则。但是手工编写规则需要有丰富的领域知 
识和语言学知识，同时还需要大量的人工分析来进 
行总结归纳，是一项非常耗时又费力的工作。伴随 
着机器学习的不断发展，相应的学习方法被引人了 
命名实体挖掘领域，包括监督式学习 [33 34] ，半监督 
式学习_和无监督式学习「 3 «，促进了命名实体挖 
掘技术的快速发展。随着大量用户行为数据信息 
(如查询日志）的积累，近年来有不少实体挖掘的研 
究工作专门针对这类数据展开（如文献 [11 ，37])。 
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对实体关系挖掘的主要目标是发现不同类型实 
体之间的关系。实体关系包括二元实体关系和多元 
实体关系，大多数研究工作更加关注二元实体关系 
的挖掘。针对实体关系挖掘，研究人员提出了各种 
解决方法，包括了基于规则的方法 [38 39] 和基于机器 
学习的方法 [4 °— 42] 。2007年，马里兰大学的 Getoor 
等人提出了统计关系学习 [43] ，成为关系挖掘领域的 
里程碑技术。传统统计模型都是基于独立同分布 
的，它包含有两个基本假设，即统计模型的对象是同 
类型的，统计模型中的对象是不相关的。统计关系 
模型否定了这两个假设，认为模型中的对象类型不 
同且彼此之间有联系，因此统计关系学习可以更全 
面地表达领域知识。实体关系挖掘的研究工作同 
MUC 、 ACE 等一系列评测会议和项目计划密切相 
关，这些评测会议对实体关系挖掘技术的发展起到 
了积极的推动作用。 

目前，网络信息挖掘领域仍是互联网研究界最 
受关注的领域之一，有很多亟待解决的问题摆在人 
们面前。例如，对于频繁模式挖掘，我们面临的主要 
挑战是如何提高挖掘结果的有用性和可理 解性； 在 
实体和关系的挖掘方面，我们不但需要实现对互联 
网上开放领域的实体和关系的挖掘，而且需要解决 
对不断涌现的新的实体和关系的挖掘问题。此外， 
我们还需要进一步考虑如何能够更好的组织、管理 
通过信息挖掘所获取的知识，如何构建大规模高效 
率的知识库、本体库和语义网络等等。 

5总结与展望 

综上所述我们可以看到，在面向海量网络信息 
的研究领域，为了能够让网络信息更好地为用户服 
务，人们分别从信息表达、信息检索、信息挖掘三个 
方向展开了广泛而深人的研究。通过结合统计分 
析、机器学习等方法，人们对非结构、富噪声、高维稀 
疏的网络信息进行了更好地建模与分析。通过这些 
研究工作，人们对信息的表达更加准确，对语义的理 
解不断深化。在此基础之上，人们应用于信息检索 
与挖掘的技术愈加的智能有效，从而也催生了很多 
成功的应用与服务。 

回顾历史，我们很高兴地看到，海量网络信息检 
索与挖掘领域在过去的 H 十年里不断的发展壮大， 
取得了累累的硕果。然而真正利用海量网络信息， 
为人们提供智能应用，服务于人们的信息需求，人们 
还面临着很多实际的挑战，包括数据规模带来的复 


杂度和可扩展性的挑战，数据的多源异构带来的融 
合分析的挑战，数据的动态演化带来的适应性的挑 
战等等。正如2008年 Nature 杂志以 “Big Data ” 为 
主题的专刊提到，互联网中蕴含着人类有史以来可 
访问的最大量信息，如何通过对海量信息的融合分 
析，充分发掘其信息价值为用户提供服务，将是我们 
面临的巨大机遇与挑战。鉴于已经取得成果，我们 
有理由相信对于网络信息检索与挖掘的研究，必将 
会有越来越广阔的空间。 
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SIP 网络安全性研究® 
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摘要 针对 SIP 网络所面临的典型安全威胁，提出了 SIP 攻击方法的有限状态机描述模 
型。利用该模型深入研究了注册劫持攻击 .INVITE 攻击、 rc-EWrrc 攻击、会话终止攻击和 
拒绝服务攻击的原理和方式，并在实际环境下重现了这 5 种攻击方法。同时提出并实现 
了针对注册劫持的禁止第三方注册或注册权限级别划分的解决方案，以及针对 INVITE 攻 
击、 re^INVITE 攻击和会话终止攻击提出了改进的 HTTP Digest 认证协议和 Proxy 间逐条加 
密的解决方案，提高了 S 1 P 网络的安全性和可用性。 

关键词网络安全，认证，攻击，注册劫持 


0引言 

随着信息产业的飞速发展，多媒体通信业务将 
进一步加快对数据、视频和语音业务的融合。现有 
的通信网与数据网正在加速融合成为下一代网络 
(NGN), 其中 IP 网上语音协议 (VoIP) 是融合中的一 
个主要研究与应用 热点。 VoIP 技术已经出现了多 
种投人实际应用的成熟协议，包括以国际电信联盟 
远程通信标准化组 （ITU-T) 为核心制定的 H.323 [1) 
协议,以互联网工程任务组 （IETF) 为核心制定的会 
话初始化协议 (session initiation protocol , SIP) [ 2 ]。 SIP 
的主要功能是用来解决 IP 网上的信令控制。在 IP 
网络分层模型上， SIP 用来进行建立、修改和终止有 
多方参与的多媒体会话进程 [3] ，从而构成下一代的 
增值业务平台。 SIP 是基于文本的 IP 电话信令协 
议，其信令信息容易被攻击者模仿、纂改，并加以非 
法利用。信令消息中包含如用户验证密码之类的重 
要数据，如果这些数据被非法用户截获并加以利用， 
将导致严重的后果。目前，对 SIP 安全性的研究比 
较多 [ w ] , 文献 [4] 中介绍了针对 SIP 的典型攻击方 
法，从 End-to-End 与 Hop-by-Hop 两个方面介绍了 一 
些安全 机制; 文献 [5] 从用户终端与代理服务器/注 
册服务器、中间服务器与中间服务器、终端系统与终 
端系统3个阶段介绍了增强 SIP 的安全性的机制， 
但缺乏具体实验，无法判断其有效性。文献 [6] 首先 
提出了 SIP 面对的安全问题，接着从 IP 层保护、认 


证和完整性保护3个方面介绍安全机制。但从以上 
的分析可以看出，这些文献都缺乏对攻击原理及方 
式的深人研究和对攻击方法的重现，未能抓住攻击 
产生的关键因素，找出切实可行的安全手段。本文 
针对这种情况，提出了 SIP 攻击方法的有限状态机 
描述模型，并利用该模型深人研究了注册劫持、 in ¬ 
vite 攻击、 re-iNvrrc 攻击、会话终止攻击和拒绝服 
务攻击的原理和方式，提出并实现了针对不同情况 
的解决方案。 

1 SIP 攻击方法的有限状态机模型 

目前人们对攻击流程的描述有多种形式，如形 
式化描述 [7] 、流程图、状态转换 [8] 等。形式化描述采 
用形式化描述语言对目标进行假设、分析和推导，过 
程详尽，方法严谨，但要理解整个推导过程和结果， 
必然要学习这种形式化描述语言，并理解假设与推 
导过程，从而增加了学习的难度。流程图的方法比 
较简单,但功能相对单 一 ,对于每一个过程都要使用 
一张流程图进行表达，因而描述比较烦琐。状态转 
换的方法能够有效地结合以上两种方法的优点，描 
述简单，过程详尽。本又采用状态转换的方法对基 
于 S1P 网络的攻击方法进行详细的描述。 

定义 SIP 攻击方法的有限状态机模型 （SSM) 
是一个五元组 A/ = 其中： 

(1) (? 为描述 SLP 状态的有穷集合，即 


① 863 计划 (2006AA01Z451 ， 2007AA010503) 和哈 尔滨工 业大学 ( 威海 ) 研究基金 (HIT(WH)200712) 资助项目 0 

② 男， 1979 年生，博 士生 ; 研究方向 ：网络 安全 , VoIP 网络 安全 ; 通讯作者， E-mail : heart@hh.ed U .cn 
( 收镐日期 :200M2^06) 
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PRE _ CALUNG -. 呼叫前的状态，即准备状态' 
CAU // VG : 成功发送 INVITE 请求，但没有收到 
任何响应 

PROCEEDING // W 7 r £ 后,收到对方响应 
COMPLETED ■_ 系统收到 3/4/5/6 XX 消息时， 
发送 ACK 给对方 
_ TERMINATED ： 终止状态 
^ = MOA 7: 监听状态 

PRE _ 7 KWW ；: 准备接收状态 
TRYING ' 系统收到信令消息，对消息进行处理， 
并根据结果作出相应动作 
CONFIRMED ： 系统对认证消息进行认证,并根 
据结果作出相应动作 

其中 3/4/5/6 XX 表示以3或4或5或6开头的 
消息码。 

(2) 2为描述 SIP 消息集合，在此只列出分析 
中使用的消息 _• 

r REGISTER ： 注册 信令; INVITE ' 遨请信令 

I ： BYE :结束信令; 123456灯:消息集合， 

I 如 100： trying J 

(3) 5 为状态转换函数，根据收到的消息进行状 
态跳转。 

(4) 90 为起始状态，系统初始化后进人接收或 
发送消息状态,包括丨 PRE _ CAUJNG , MOIN , PRE _ 
TRYINGlo 


(5) F 为终止状态，表示一次呼叫结束，包括 
I TERMINATED 、 。 

由于 SIP 协议是基于 1P 网络的实时通信协议， 
IP 网络的开放性使得它容易受到攻击。同一条路 
径，既然能传送数据、音频视频流，也就可以用来进 
行攻击 [9] 。 SIP 信令面临着多种攻击方法 

2典型的 SIP 攻击方法 

采用 sip 攻击方法的有限状态机模型对典型的 
攻击方法进行描述、分析。 

2.1 注册劫持 (registration hyacking) 攻击方法 

SIP 注册机制 [|2] 用来解决域内用户在何处可以 
被访问的问题,注册器维护数据库中的一张表,该表 
记录了一个用户的唯一标识符 (uniform resource iden ¬ 
tifier , URI ) 到用户联系地址(也就是 IP 地址)的映射 
关系。每一个用户可以给自己的 UR 1 建立0个或多 
个用户联系地址。 SIP 支持第三方注册机制，致使 
From 和 To 域对应的用户可以不同，攻击者通过修 
改 From 字段的内容成为授权用户，进行恶意注 
册 [|3] 。攻击者最终目的不是注销合法用户的联系 
地址，而是把自己的联系地址注册为合法用户的联 
系地址。这样，发送给合法用户的所有连接请求都 
会被定向到攻击者的可用设备上。但是要实现该种 
攻击必须满足攻击者和合法用户在同一个域内。下 
面以注册攻击为例，利用 SIP 攻击方法的有限状态 
机模型进行详细的描述。 


l:Monl I PRE 
RegijlCT ■" TKY1NQ 



( a ) 攻击端状态转换图 


图1注册劫持模型 


( b ) 接收端状态转换图 



(1) 系统首先处于 W 0 A 7 状态，监听用户 Victim 
向注册器进行注册。收到注册包后跳转到 PRE _ 
TRYING 状态。 

(2) 在 PRE _ TRYING 状态,攻击者 Attacker 向 


注册器发送 REGISTER 请求包。收到服务器返回的 
401需要认证的消息，系统跳至状态。系 
统在 REFORM 状态重新构成 REGISTER 数据包，然 
后到至 PR £_77?17/ VG 状态，并且重新发送重构的 
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REGISTER 数据包，并且系统跳至 TRYim 状态。 

(3) 系统在状态，收到注册服务器返回 
的200 0 K 消息，说明注册服务器接受了攻击者的 
REGISTER 请求，系统跳至 COMPLETED 状态。 

(4) 系统在 CftWPLCTTO 状态整理资源，然后 
跳转到 TERMINATED 状态。 

(5) 系统在 7 H // V 47 KZ ) 状态释放资源，注册 
攻击成功。攻击模型如图1所示。 

2.2 INVITE 攻击方法 

在 SIP 协议中，服务器对来自客户端的访问具 


有访问控制权限，只有域内注册的合法用户才能够 
向服务器提交 INVITE 请求。将未在任何域内注册 
的用户向某一域内的合法用户进行电话呼叫的行为 
称之为非法 INVITE 攻击。但如果被叫者客户端支 
持客户端间的直接会话建立机制，而且不存在对主 
叫方的身份验证机制，同一个域内的攻击者可以绕 
过服务器，直接向被叫者提交 INVITE 请求，被叫者 
客户端会对这个非法 INVITE 请求进行正常处理。 
利用 SIP 攻击方法的有限状态机模型描述 INVITE 
攻击模型如图2所示。 


INIT 



U ) 攻击 袖状态 转换图 



图 2 INVITE 攻击模型 


( b > 接收端状态转换图 


2.3 re ^ INVTTE 攻击方法 

re - INVHE 请求就是在双方建立起正常会话之 
后，其中一个客户端向另一个客户端重新发起 in ¬ 
vite 请求。 这个 re * INVITE 请求 -- 般会改变初始 
INVITE 请求中信令描述协议 （ SDP ) 消息的会话参 
数。 SDP 消息一般携带关于会话媒体流的一些信 
息,如接收媒体流的主机 IP 和端口号、本客户端支 
持的音频/视频编码方式等。这样，如果攻击者伪装 


成会话的一方，然后向另一方发起 re _ INVITE 请 
求，在这个请求中修改 SDP 消息体的接收主机 IP 和 
端口号，那么媒体流就会重定向到攻击者的设备 
上 tM ] 。 i ^ INVITE 攻击包括3种形式:攻击者伪装成 
呼叫者向服务器发起 re - INVrrE 请求、攻击者伪装成 
服务器向被叫者发送 re - INVITE 请求和攻击者伪装 
成呼叫者直接向被叫者发送 re - INVITE 请求。 re - IN - 
VITE 攻击模型如图3所示。 



U ) 攻击埔状态转换 


//FRE 
(ntOCKDH 
\ ING, 



( b ) 接收端状态转换图 


图3 re ^ NVTTE 攻击模型 
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2.4 会话终止攻击方法 方 B 收到 BYE 请求消息， B 就会依照请求结束会 

会话终止攻击也称为 BYE 包攻击 115] 。由于 话。会话终止攻击一共有3种攻击方 法:伪 装呼叫 
SIP 数据包报文采用 ASCII 传输,恶意攻击者可以通 者向服务器发 BYE 包; 伪装服务器向被被叫者发 

过截获通信双方的 SIP 数据包，提取其中的一些通 BYE 包; 伪装成呼叫者直接向被叫者发 BYE 包。会 

信参数，如 To 域, From 域, Contact 域等，然后伪造成 话终止攻击模型如图4所示。 

通信其中一方 A 向另一方 B 发 BYE 请求，一旦另一 



(») 攻击端状态转换图 （ b ) 接收端状态转换囝 

图 4 会话终止攻击模型 


2.5 拒绝服务攻击 针对 SIP 的 DoS 攻击有三种形 式:针 对认证消耗计 

通常 SIP Proxy 需要接受 SIP 呼叫请求，直接面 算能力、针对等待时间消耗内存和纯粹暴力攻击。 

对开放的 IP 网络,较容易受到拒绝服务 （ DoS ) 攻击。拒绝服务攻击模型如图5所示。 




图 5 DoS 攻击模型 


'trying/ 



Rec Register 


接收端状态转换图 


两台客户端机器 （ Victim 和 Yzc ) 硬件配置是 
3 实际环境攻击测试与分析 CPU PH 1800、 内存 128 M , 软件配置是 WindowsXP 操 

作系统、 SJPhone 和 X - pro ; 两台服务器 （ Serverl 和 
实验目的是验证上述攻击方法,及受攻击后的 Setver 2) 硬件配置是4个 2.4 GCPIUG 内存,软件配 

服务器受到的影响。实验环境如图6所示。 置是 Linux 2.4.18-5 操作系统、 Openser - I . O . O 。 
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Server I ■^^^^Server 2 

Victim Attacker Yk 

图6实验环境 

注册攻击、 BYE 包攻击和伪装服务器的 re - IN - 
VITE 攻击的伪造数据包如图7所示。 

由于 INVITE 攻击方法属于 re - INVUE 攻击方法 
的子集，攻击者直接伪装成合法用户向被攻击者发 
送 ENVrTE 请求包。故在此不再赘述。 

DoS 攻击: 以传输控制协议 ( TCP ) 方式发起 DoS 


攻击,每次发起500个 TCP 连接,不停地循环发送, 
在此基础上进行每秒钟发起一次 TCP 与用户数据 
报 ( UDP ) 探测，时间延迟和受攻击主机 CPU 占用率 
变化情况分别如图 8( a ),( c ) 和 ( e ) 所示。从图中的 
结果可以看出，以 TCP 方式发起的 DoS 攻击对以 
UDP 形式进行的能力査询 （ OPTION ) 探测影响不大, 
但对以 TCP 形成发起的 OPTION 探测影响很大，这 
是因为在以 TCP 方式发起 DoS 攻击时,处理的瓶颈 
在于处理机接收 TCP 连接的缓冲池的大小，由于过 
多的连接请求占据了所有的缓冲池，所以对以 TCP 
方式发起的 OPTION 请求影响很大。当攻击发起 
4^之后进行的探测耗时开始增大 ,47 s 时延迟尽 
30 h , 并且当发起攻击 lmin (约225万个连接）以后所 
有的以 TCP 形成发起的连接请求都无法处理。 


(b>TCI> 连按 珀迟变 化示意 ffl 


付) UDP« 接延迟变化示意图 


(f) DoS-UDP 受攻击主机 CPU 占用率 
变化示意图 


DoS 攻击连接延迟变化示意图 




U) 册攻击数据包 （b)BYE 攻击数据包 （ c ) i ^INVITE 攻击数据包 

图7注册攻击、 BYE 攻击和 re ^ INVITE 攻击的伪造数据包 
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以 UDP 方式发起 DoS 攻击,每秒发送100000个 
OPTION 包，在此基础上进行 TCP 与 UDP 探测，时间 
延迟和受攻击主机 CPU 占用率分别如图 8( b ), ( d ) 
和 ( f ) 所示。从图中可以看出，以 UDP 方式发起的 
DoS 攻击对以 TCP 方式发起的 OPTION 连接会产生 
一定延迟，但对以 UDP 方式发起的 OPTION 探测会 
产生非常大的延迟，这主要是因为以 UDP 方式发起 
DoS 攻击时，处理的瓶颈在处理速度上，由于太多的 
请求需要处理，占用了大量的 CPU 时间，所以会发 
生很大的延迟，而且受攻击主机的4个 CPU 的占用 
率都超过85%。 

4安全部署 

通过前文分析可以看出，针对 SIP 协议的各种 
典型的攻击方法有其各自的特点和应用范围。通过 
对攻击产生的原因和攻击实验结果分析，可以找到 
有针对性的安全解决方案。 

(1) 针对于注册攻击。注册攻击产生的原因是 
服务器未检查注册请求的认证头部用户与注册的 
To 域的目的用户是否一致,服务器的操作仅检査了 
认证头部的用户认证信息是否正确，因此如果服务 
器能够健全配置，那么第三方的恶意注册就很难实 
现。可以禁止第三方注册或进行权利等级划分，要 
求代替注册的第三方在服务器数据库中享有较高权 
限。经过这样改进后，可以有效的防止第三方注册 
攻击。 

(2) 针对于 INVITE 攻击、 re - LNVITE 攻击和 BYE 
攻击。这些攻击主要是通过伪造数据包进行欺骗， 
直接原因就是数据的明文性和客户端缺乏对服务器 
的认证或客户端之间的认证。目前 SIP 协议的安全 
机制主要包括传输层安全 （ TLS ) 保护 ， HTTP Digest 
身份认证和端到端加密 （ PGP 或 S / MIME )。 PGP 和 
S / MIME 加密机制涉及到分发和管理密钥的第三 
方，使用较复杂，且目前缺乏具有可操作性的方案。 
在此提供两种有效的加密认证 手段： 改进的 HTTP 
Digest 身份认证和 Proxy 间的逐条加密。 

• HTTP Digest 改进 。 HTT Digest 身份认证只是 
服务器对客户端的认证,如果对其改进，变成双向认 
证就可以有效地提高网络的安全性。在原 HTTP Di ¬ 
gest 认证协议的基础上进行改进，改进在 SIP 中实现 
如下： 

a ) 增加代号为417的 Server 响应，表示用户代 
理 ( UA ) 要求对代理服务器鉴权。 
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b ) 当 UA 收到 Proxy 路由的 SIP 请求时， UA 向 
Proxy 发送417发起挑战，挑战的内容包括随机数 
nonce 、 作用域 realm 及用户名 username 等信息，其中 
username 使用 UA 的用户名。 

c ) Proxy 收到417响应后，需要在原来的请求中 
加入认证信息后重发请求，生成 response 的方法同 
UA 。 由于 UA 已经同域内 Proxy 共享密钥，因此这一 
步完全可以实现. 

d ) UA 收到带有认证信息的消息后，将收到的 
响应值同预期计算值相比较来判断 Proxy 的合法 
性。如果认证通过，则完成请求，否则回应417。 

• Proxy 间的逐条加密，由于会话的双方可能属 
于不同的域,因而信令要经过多个 Proxy 。 将域外的 
Proxy 分为信任和非信任两个组。可以假定来自信 
任 Proxy 的呼叫都是安全的，那么只要保证信任 
Proxy 和本域内对外 Proxy 之间 SIP 链路的安全性。 
Proxy 之间可通过 US 加密来保证通信的安全性。 
实现 Proxy 逐跳加密,其结杓如图9所示。 

实验中的 OpenSER 服务器通过如下配置来打 
开 TLS 功能： 

disable _ tls = 0 
tls _ port _ no = 5061 
listen = tls : 10.10.100.133 
tls _ verify = 1 

tls _ require _ certificate = 0 
tls _ method = TLSvl # SSLv 23 # 
l]s _ certificate = “/ usr / local / etc / openser / tls / user / 
user - cert . pem ” 

tls _ private key = w / usr / locai / etc / openser / tls / 
user / user - privkey . pem ” 

tls ca list = ^/ usr / local / etc / openser / tls / user / cal - 
ist . pem ” 

经过以上修改后,重新发起的注册劫持因第三 
方注册功能被禁止或权限不够而 失败; 重新发起的 
INVITE 攻击, re-INVlTE 攻击和会话终止攻击因存在 
客户端对服务器端或客户端对客户端的认证，导致 
伪装服务器或客户端的攻击不 成功; 并且由于采用 
了 Proxy 间逐条加密，攻击者如果窃听 Proxy 间的数 
据包也会因数据加密而无功而返。可见上述安全策 
略可以有效地提髙 SIP 通信的可用性、完整性和保 
密性，提高了 SIP 网络的安全性。针对 DoS 的攻击 
防范比较困难,防范策略过严必将影响服务质 M ，而 
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过轻又不能有效地防止 DoS 攻击。在今后的工作中 
将作为一个重点进行突破。 
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图9 PROXY 间 1 LS 逐条加密 


5结论 

SIP 具有简单、可扩展、灵活等特点，因而已成 
为当前网络研究和应用开发的热点。 SIP 技术在 
VoIP 等领域取得很快的发展,其安全性已经得到了 
广泛的关注。3 Com 、思科、微软和国内的中兴、华为 
都推出了基于 SIP 的解决方案。本文针对 SIP 网络 
所面临的典型安全威胁提出的安全性解决方案，可 
有效地提高 SIP 通信的可用性、完整性和保密性，从 
而提高 SIP 网络的安全性。今后的研究重点是针对 
DoS 攻击的正确防范策略，解决防范过严会影响服 
务质 M , 防范过轻又不能有效防止攻击的矛盾。 
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Research on the security of session initation protocol (SIP) networks 


Zhang Zhaoxin，Fang Binxing , Hu Mingzeng , Zhang Hongli 
(Research Center of Computer Network and Information Security Technology , Harbin Institute of 

Technology , Harbin 150001) 

Abstract 

In consideration of the security threats in session initiation protocol ( SEP ) based networks , this paper put forward the 
deterministic finite automation ( DFA ) model for SIP attack methods . The attack theories and methods of five attacks of 
registration hijacking , INVITE , re - INVITE , tearing down sessions , and DoS were deeply analys based on the model , and 
all the attacks were recurred in real circumstances . At the same time the method to forbid the third part registration or 
registration rank carving in dealing with registration hijacking attacks , and the improved HTTP digest authentication pro ¬ 
tocol and the hop - by-hop encryption within proxy to deal with the attacks of INVITE , re-INVITE and BYE were put for ¬ 
ward and implemented , which improved the security and usability of SIP networks . 

Key words ： network security , authentication , attack , registration hijacking 
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Research and Implementation of a High-Performance 
Distributed Intrusion Detection System 

YANG Wu, FANG Bin-xing, YUN Xiao-chun, 

ZHANG Hong-4i, HU Ming-zeng 

(National Computer Information Content Security Key Lab, Haerbin Institute of Technology, 

Haerbin 150001 ， China) 

Abstract The performance bottleneck of the traditional network intrusion detection 
system (N IDS ) is investigated in order to design and implement a high-performance 
distributed intrusion detection system ( HDIDS ) to detect network intruders by 
passively monitoring a network link . Experiments indicate that the data processing 
of our HDIDS is increased by about 3 times more than that of the traditional N IDS . 

Key words network security ； distributed intrusion detection ； performance 
optimizing ； protocol analysis 
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□ □□□□□□□ 


□ 27 口 


1 HDIDSD □□□□□□□□□ 

hdidsd □□□□□□ l(a)D □ ,□□□□□□□□□□□□□□□ 2D □ □ □ □. 

HDIDSD □□□□□□ ,□□□□□□□□ ■□□□□□□□□□□□□□□，□□□□□ 

□ □□□□□□□□，□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ •□□□□□□□□□□□□□□□□□□□□□□□□□□□，□□□□□□□□□□ 

□ □□□□□□□□□□；□□□□□□□□□□□□□□□□□□□□□□□ .□□□ [ 2 ] 

□ □□□□□□□□□□□□□，□□□□□□□□□□□□，□□□□□□□□□□□□□ 

□ □□，□□□□□□□□□□□□□□□□□□□□• 

□ □□□□□ hdidsd □□□□□□□□□□□□□□□□，□□□□□□□□□□ 

□ l(b)D □.□□□□□□□□□□□□□□□□□□□□. 



⑻ HD 1 DS 系统的逻辑框架 （ b ) 自治代理的实现框架 

□ 1 HDIDSD □□□□□□□□□□□ 

1 1 □□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□ LibpcapD □□□□□□□□ 

□ LibpcapD □□□□□□□□ ,□□□□□□□□□□□ 

□ •□□□□□□□□□□□□□□□，□□□□□□□□□□□□□□□□，□□□□□□ 

□ □ .□□□□□□□□□□□ 

□ □□□□□□□□ —— Libzcap- □ 2Q IibzcapD □ □ IibpcapD 2[] □□□□□□□ 

□ •□□□□□□□，LibzcapD □□□□□□ (kernel manager) □□□□□□□□□( new 

NIG driver)D □□□□□□ (V N L virtual network interface) □口 •□□□□□□ 口 

□ □□□□□□□□ ,□□□□□□□□□□□□□□□□ api 口 2 n □ □ □ □ 

□ □□□ ，口 □□□□□□□□□□□□□□□□ 一一 □□□□□□□□□□□□□□;□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ (DMA)D □□ □ □ 

□ □□□□□□□□□，□□□ dmad □□□□□□□□□□□□□□□□□□□□□□ 

□ •□□□□□□□□ IibpcapD □ , IibzcapD □□□□□□、□□□□□□□□□□□□ 

口 R)flrBl%ficQ*ohic Publishing House. All rights reserved. http://www 
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□ □□□□□□□□□□□□□□□□□□□ ,□□□□□□□□□□□□□□□□□ 

□ , HDIDS 口 □□□□□□□□□□□□□□□□□□□□□□□□□□□，□□□□□□ 

□ Rl ： packet (p) I (p. e_ type = ETHER— IP) && (p. protocol! = IP_ TCP) && (p. 

protocol! = IP_ UDP) && (p. protocol! = IP— I CM P) && (p. protocol! = IP_ IGM P) 
》 Drop，D □□□□□□□□ _□□□□□□□□□□□□□□□□□□□.□□□□ 

□ ,□ □ □ □ 

□ □□□□□□□□□□□□□□□ HDIDS 口 □□□□□□□□□□- 



(a) Libpcap 的报文捕获机制 （ b) Lihzcap 的报文捕获机制 


□ 2 Li bp cap D LibzcapD □□□□□□□ 

12 □□□□□□□□□□□□□□□□□ 

□ □ □ NIDS (0 Snort ) 口 □□□□□□□□□□□□□□□□□□□□□，□□□□□ 

□ □□□□□□□□□□□□□□□□，□□□□□□□□□□□□□、 □□間 ，□□□ 

NIDSQ □□口 （ evasion)Q □ □ □ □ (DO S / DDOS ). 

□ □□□□□□□□ , hdidsd □□□□□□□□□□□□□□□□□□□ ,□ □ □ □ 

□ □□□□□□□□□□□□□□□□□.□□□□□， HDIDS 口 □□□□□□□□□.□ 

□ □□□□□□□□□□□□□□□□□□，hdidsd □□□□□□□□□□□□□□□□ 

□ □□□□□□□□ •□□□□□□□□□□□□□□，□□□□□□□□□□□□□□□ 

□ □ 0{nj\ □ 0(lbn)(nUU □□□□□□□□□□)• 

13 □□□□□□□□□□□□□□□ 

□ □□□□□ 口 .□□□□□□ 口 ( AC , Aho - Corasic)D □□□□□□ 口 ' 1 -D D D D Boyer - 
Moore ( BM)D □□□□□□□□□□□□□□□□.□□□□□□□□□□ ACQ □ □ □ □ 

□ □□□□□□□□□□□□□□ ,□□□□□□□□□■□□□ [4E □ □ □，□□□□□ 

□ □□□□□□□□□□□□□ —— SSPBMD □.□□□□□□□□□□□□□□□□□. 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□ -□□□□□□□ 3D □, 

□ □ □ □ (SHIFT table ). □ □ □ ( SUFFIX table)D □口 □ (PREFIX table ). □□□□□□□ 

□ □□□□□□ 3 Q □ ，口 □□□□□□□□□□□□□□□□□□□□□. □□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□■ SSPBMQ □ □ 
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□ □□□□□□□ 


□ 27 口 


□ □□)，□ m > B [] , SSPBM □□□□□□□□□□□□□□. 

2 □□□□□□□ 1000 

(1) 2 D □□□□□□□□□□ BOO 

□ 口 I 

□ I 600 

□ □□□□, 2 D □□□□□□□ I 400 

Lib pea pD LibzcapD □□□□□□• § 

□ □□□ 3 D □•□□□□□□□, 5 200 

□ □□□□□□□□□□，LibzeapO 

□ □□□□□□□□□□• Libpeap 0 

□ □□□□□□□□□□□□□□□ 

□ •□□□□□□□□□□□， 

LibzeapO □□□□□□□□ Libpeap 
□ □□ □ • 

(2) □□□□□□□□□ ，□口 □□ HDIDS 口 □□□□□□□□□□□ Snort (□ □ □ □ 

□ □ ACD n )□□□□□□□• HD IDS 口 □□□□□□□□ 186 Mbit / s,D Snort 口 □ □ □ 

□ □ 52 Mbit / s ; □□□□□□□□□□□□□□ 30 ;□□□□□□□□， HD IDS 口 □ □ □ 
□□□□□□□□□□□• 
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□ 3 □□□□□□□□ 


3 □ □ □ 


□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ , HDIDS 口 □□□□□□□□□□□□□□□□□□□□ 

□ ■□□,□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □ □ □ • 
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摘 *: 分布式系统软忤的运行负载和任务完成状态信息在系统改进和斬结构设计中具有重要作用 • 提出用干大规棋网络拓扑 ® 息釆 m 系 
统的分布式轻 载迪测 抆术，釆用釜干 Manager/Agent 棋型、多纹程探针的 信息世 测抆术和茔干 « 单网 络管理 协议的 Agent ft 术，釆银并传 
输负 载信息和任务完成状态信息 • 该方法具 有低负 载、对系统 运行千 扰小、时效性强和商扩展性的特点 • 
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【 Abstract] The information of operation load and task accomplishment status of distributed system software is important for system improvement 
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i 概述 

随看 Internet 规模的膨胀，其网络钴构日益复杂、重要 
性越来越高。通过测重 Internet 拓扑钴构可以了辟 Internet 的 
钴你仿直樓拟 Internet 环埯并分析 Internet 拓扑的演化规律。 
对网络整体拓扑结构和网络行为进行深入丁辟和分析，有助 
干发现网络瓶?优化网络配置，并进一步发现网络中可能 
存在的潜在危险 111 。大规模网络拓扑信息采隼系统采用分布 
式结构进行拓扑信息收隼，系统由大重节点机构成，结构复 
杂，备节点机的运行状态和总体机群的负栽将直接影响系统 
功能及 性能。 如何管理并 M 控每个计葬节点的资塬运行状态 
至关重通过 M 测可以及时发现产生 tt 嗥的主机和异常运 
行的资源，从而在最 M 时间内恢复或调整系统，使其持续稳 
定地正常运行 P1 , 

在研究分布式系统结构和性能的过程中， 监测系 统是一 
种重变工具，它通过获取分布式系统软硬件运行时产生的备 
神数据来观察系统性能、负栽和效率，从而为现有系统的改 
进和新结构的设计提供重化# 考。 监测系统本身必彡页县分布 
的并包含若干协同工作的槙块，因此，对分布 式监测 系统的 
研究逐渐成为一个热点 P】 。 网络气象 IR 务 (Network Weather 
Service , NWS ) 是一个分布式系统，操作看一组分布式性能传 
感器，使其周期 性地监 测、动态地预测各种网络性能和计算 
资源。它只能进行隼中式预测，系统规模不能过大，否则会 


因为数据重太大而造成预测瓶颈，且该系统不具备容错能力， 
可扩展性差 JAMM(Java Mai Manager) 采用生产者/消费 
者樓型，是一个甚千代理的系统，能自动 执行监 测传感器并 
收隼塞件数据 [8] 。 R-GMA 由欧洲数据网格 (European Data 
Grid. EDG) 幵发，作为网格信息和监测系统，它甚干 GGF 公 
司的 GMA 架构，用于提供网格的信息和应用 MM^Gangha 
是一个可扩展的分布式监测系统，甚于多播的监听/通知协 
议，采用 戾次设计来监 测集群内部的状态，并使用一个在典 
型隼群节点之间点到点的连接树使多个集群成为联盟。 
NetLogger 是一个分布式应用程序、主机和网络的监控工具。 
对应用程序的监控范围主要包括性能及其瓶51分析、违择硬 
件组件进行升绖(缓觯性能瓶31)、应闬程序的实时分析、应 
用程序的性能与系统信息的关联等 |W_U1 , MDS(Momtonng 
and Dis- covery System) 是 Globus Toolkit 中的一个重变组件， 
使用了一个可扩展的框架来管理有关计算网格及其组件(网 
络、计算 机节点 、存储系统和工具)状态的静态和动态信息 [131 » 
甚干筒单网络管玴协议 (Simple Network Management Protocol, 
* 金項 B: 国家 “S63” 计划釜金资助項目 (2007AAD1Z406) 
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SNMP) 的网络裢路流重统计分析工具可用干监视外拄程序收 
隼到的数据，如 CPU 负栽、内存利闬率、接口丢包率、昀应 
时间等。上述系统都能动态地、阓期性地监测大规棋分布式 
系统资源，而对大规樓应用软件本身运行状态进行监测的技 
术尚未成熟，目前没有出现专门针对大规樓拓扑信息采隼系 
统的监测系统。为丁获取被脏测系统相应性能和任务充成状 
态数据，需变向被 M 测系统中插人许多软件重件记录器，导 
致被 监测软 件变得 冗长。 惠件记录器在工作过程中，采集到 
大重性能和任务充成状态数据，此类数据最终被转储到本地 
或异地班盘文件中保留，索安耗费一定 CPU、 内存和系统资 
源。因此，受控代码和非受控代码的执行状况存在一定差异， 
产 生监测 系统对被监测系统的扰动。特刖当? 皮监 测软件较庞 
大、监测点违择较多时，时间的增 i 卩重可能 很大。 因此，针 
对大规棋拓扑信息采 m 系统的分布式轻栽监测技术具有重变 
怠义。 

2分布式监测系统体系结构 
21系统结构 

本文拓扑信息采隼系统采用甚于 ICMP 协议的主 动探测 
技术，可以获得从源点到目标 IP 之间 的路由信息。一个源点 
到一个目标之间*—条线，多个源点对多个目标进行主动探 
测得来的数据可以织成一张网，只«源点与目标点违取得当、 
数重充足，该网就能充分描述网络当前的实际拓扑结构。多 
点多机的网络测重体系结构由多个测重点构成，每个测重点 
由多机构成。为了保证不给网络带来较重的颔外负荷，这些 
测重点按纮别分为3类，即探测点、处理中心、分析中心。 
在探测点位置设置探针，对探测目标全隼进行周期性的塥始 
信息采隼，并将收隼到的数据实时传送到附近的处理中心数 
据库保存。在处理中心位置上的数据库接收各探测点采隼的 
信息，存放备探测点的配置信息以实现对探测点的随时增减 
和对各点探测功能、探测目标的重新调整。处理中心®对库 
中数据进行初步分析，并将 关锖数 据提交 列分析 中心。在分 
析中心设置总数据库，对全部信息进行综合分析，生成一张 
全探测范围的整体态 势图。 针对拓扑信息采隼系统的结构特 
点，分布式 监渊 系统组织咙3级钴构，包括 M 测点(探测点)、 
区域监 测中心和管进中心，整体的分布式监测系统体系钴构 
如图1所示。 



S 1分布式 1 廬測系统休 系绝构 

分布式 脏测 系统的 M 测点 是拓扑信息采隼系统的探测 
点， m 测程序依附在拓扑信息采 m 系统的探测点上，设置探 
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针按照设定的 采隼策 B3 对监测的负栽性能信息和任务充成状 
态信息进行采隼，并将采隼到数据抟送到监测中心保存。管 
理中心负丧调整监测策略以及对 M 测点(探测点)、监测中心 
的 管理。 

2.2 甚于 Managei /Agent 模 fi 的设计 

系统监 测是 一个隼 信息采箪、抟输、数据存储处理和管 
fi 于一体的缭含系统，堯®满足监测的透明性、 监测 项目的 
可违性、 监测策 畤的自主性、监测系统的可扩展性，图1中 
的分布式 M 测系统在区域监测中心和 M 测点之间采用 
Manager/Agent 植型，樓 型主® 由管 S 者、 管； 1代理和被管对 
象组成。管理者 Manager 负赉对 Agent 的管 E, 管理代 EAgent 
负丧管理其管辖区域中的被管对象，即探针 (probe ), 它能够 
利用通信协议与管理者交换相关信息。该模型的优势是避免了 
Manager 与每个?皮管对象的直接通信，只要和 Agent 进行交 
互，指导 Agent 代为管理即可，减少了对网络资源的占用。 
Agent 本身具有一定自治性和反应性，它不必通报 Manager 
就能够自主处 a 被管理 对象的请求，并做出反应。因此，减 
轻了 Manager 的负担，使系统的管理戾次化和分散化。 

M 测点上的多个探针 probe 县依附在拓扑信息采隼系统 
的探测器，获取被 M 测实体 的性能消息、柑关任务充成状态 
信息。不同的探针监测不同类型的数据。监测点上的 Agent 
是包含了动态更新等备种辅助 IR 务的实体，# probe 的直接 
管理 者。 通过和 Manager 之间的交互能够实现 M 测策畤的动 
态更新，可以收隼监测点上所有 probe 获取的信息并传递给 
区域监测中心，接收信息管通中心发出的策略并下达到监测 
点的每个探 测器， 使探测器按照策略进行监测。区域 M 测中 
心接收一个 B 域内的並测点上的 Agent 收隼的信息，存储负 
戟性能数据、任务充成状态信息，并将筒报汇报给信息管 a 
中心，按照管理中心的调度和管理指令通过 Agent 设置 probe 
的监测策畤。 

3监测信患获取和传输技术 

31 M 测信息获取技术 

M 测数据的采隼县监测系统的核心部分， 做测数 据采隼 
的核心原则是在满足 M 测需求的情况下，以尽重小的负栽代 
价和对被监测系统的最小扰动获得监测数据。采用分布式的 
结构、独立化的 probe 能以很低的负栽实现多屄次的数据 M 
测、策略控則和数据隼中处理。 probe 采隼的数据包括系统负 
栽信息和系统任务充成信息等。负栽信息包括 CPU、 内存、 
硬盘、网卡和进程信息等。系统任务充成信息包括已经充成 
的测重目标 IP 地址数重、中间节点 IP 地址数重、平均眺数 
和平均往返时间。已有多神性能信息监测 方法： （1) 通过在 
Lmu X 操作系统的 shell 上执行命令，获得命令执行后的输出 
结果，通过分析输出流，提取害要的信息。例如在 Lmux 系 
统下执行 ps 命令获得当前系统中备个进程的状态、占用 CPU 
和内存的百分比等。该方法具有一定通用性，可以采 m 到大 
多数监测系统甭®的信息 •（2) 通过 Linux 系统的 /proc 虚拟文 
件系统获得系统信息。 /proc 以文件系统的方式提供访问系统 
内核数据的方法，从内核数据结构中可获取内存、网卡、硬 
盘、线程、 CPU 等性能数据，具有开销低、对系统千扰小和 
时效性强的优点。考虑到最小扰动、时效性、开销影响，本 
文 M 测系统釆取第 (2) 神方法获取 M 测的性能数据。系统任务 
充成信息的采隼通过共享内存的方式实现拓扑信息采隼系统 
和 M 测系统对任务充成愦况信息的 共享。 拓扑信息采隼系统 
每充成一个任务后，通过调闬接口在共享数据区中更新甭要 




























统计的系统任务充成信息， 而监测 系统则通过调用接口，根 
据采隼策 B 5 设定的等间隔时间从共享数据中获取统计信息。 
本文采用的信息采 m 方法具有良好的策略更新性和扩展性、 
低頷外开销和低扰动，实现了监测过程®务化。 

3.2 probe 设计 

甚干对称多处理 5S(Symmetncal Multi-Processing, SMP) 
体系结构的计算机开始被大重使闬，但是单线程的任务无法 
同时在多个处 理器上 运行，无法充分发挥硬件系统的计算能 
力。为了高效利用多个处理器资塬，拓扑信息釆隼系统釆闬 
多线程的方式并行采隼拓扑信息》 监测 系统相应地采用多线 
程 probe 技术，每个 probe 即一个线程，执行一个独立的信息 
监测 任务。 prob e 尽可能产生最小的系统资源负载，将对系统 
的干扰降到最低，实现 probe 之间 的独立性，从而进行分刖 
控例 • 它采闬不同的策略充成不同监测任务。多线程 probe 
结构如囝2所示。采隼 到的监测数据 随采样(监测)时间间隔 
的减小而增多，当需要细粒度地关注采隼系统时， M 测时间 
间隔非常小，采隼頻窣，甭®频繫传 输监测 数据，将大幅增 
加向系统请求 I/O 的次数。监测系统可以设置为采取批重缓 
存的机即 ffl 先设置一个适当容童的性能和任务充成状态 
数据缓冲区。 M 测数据产生后，先暂存在缓冲区中，当需® 
向並测中心传输数据时，进行批重抟输或转存储，从而最大 
限度地减少对系统运行的 干扰。 在并行系统中，为丁保护处 
干竞争状态的共享资调，采闬临界锁的方式，但该方式解决 
共享冲突的代价很大，因此，本文为毎个 probe 分配一个单 
独的缓 冲环， 以避免多个 probe 兗争共享资源所带来的幵销。 



图 2 多线 sr »“ 结构 

3.3 * 于 SNMP 的传输技术 

随看信息化建设的深入，相应的网络应用越来越复杂， 
对网络应用管 a 提出了更高® 求。 经过； to 多年的研究与实 
践，甚干 SNMP 的 TCP/IP 网络管 m 技术已经非常成熟，在 
路由雅、交换机、主机等网络甚础设备 的管理 方面有丰富的 
经验积累。通过例定统一的业务系统 SNMP 管理信息接口获 
取业务系统内部信息，并充分利用 SNMP 网络管理技术，可 
以实现对监测数据系统有效、通用的数据传输。甚于拓扑信 
息采箪系统的分布式 监测系 统在监测数据抟输过程中，采用 
近似 SNMP 的协议，使监测点和 M 测中心的传输业务代理 
Agent 通过业务管理接口获取业务系统的负栽性能和任务充 
成等信息，并保存在本地的管理信息库 (Management Information 
Base, MIB) 中•收到並测中心 Manager 发来的 SNMP 请求后, 
将相应数据 上报。 Manger 在获得 Agent 采隼的拓扑信息监测 
数据信息后，将所有数据保存在管理数据库中。 

位于 探测点 (监测点)上的 Agent 与监测进程 probe 之阏的 
接口 (ik 务管 a 接口)以及 Agent 的樓块结构如图3所示。 probe 
线程将相应的管理信息输出到 Agent 管理接口。 Agent 信息 
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辟析樓块访 问管理 接口， 提取监 测信息并存入 MIB 库中。当 
Agent 接收到监测中心的请求时，通过 SNMP 昀应棋块读取 
MIB 信息，向监澍中心的 Manager 提供负栽性能和任务充成 
状态 的监测数据。 本文采用的传输技术具有开放式、标准化 
和可扩展性强的 持点。 



团 3 Ag tnl 棋決繪构 

4实验与分析 

在大规模拓扑信息采隼系统运行时，进行分布式监 测测 
试，对不同的监测数据项采取不同 M 测时间间隔，运行时设 
走的备个 M 测时间间隔#数如表1 所示。 


表1 澜时 MM 隔参* 


Muima. 

监拥 时阆阆 隔心 

CPU 佰 s 

2 

内存佰 S 

30 

薄盘 ms 

1 200 

两卡佰 s. 

30 

进 

10 

系统住务充攻状态 

10 


分布式监测系统在 XEON(TM) CPU 2.00 GHz, Red Hat 
7 3 测试平白下进行测试，以表 1 所示监 测时间 间隔为运行# 
数，运行时占用的系统 CPU 资源和采隼的 M 测数据重如图4 
和囝5所示，其中， M 测时间间隔为 ID s。 经长时间测试发 
现，分布式监 测系统 在监测信息采隼时每秒平均 CPU 资滬占用 
率约为0 092 3%, M 测数据产生速率约为 0.216 KB/s, 且在 
监测系统运行时只占用少重内存资源，最大限度地减少了对 
系统计算资源、网络带宽的占用和对拓扑信息采隼系统运行 
的干扰，实现丁对大规槙拓扑信息采隼系统的分布式轻载 
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团 2 网》1»点相对走位位置分布 B 

为了进一步验证定位楮度，将其中2个节点放在相距 
100 m 的空旷平坦地面，单独组成网络，首先采用本文提出 
的方法进行柑对定位100次，其距离误差分布如图 3(a) 所示。 
分别在 M 节点的所在地用单点 GPS 各定位100次，再用这些 
定位谊计算两 点之间 的距离，其距离误差分布如图 3(b) 所示。 
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(a) 柑对 GPS (b) 单点 GPS 

图3 实轮数 据误麴分布图 


从图3可以看出，釆用本文提出的相对 GPS 定位方法得 
到的距离误差在±5 m 以内，釆用单点 GPS 定位得到的距离 
误差在±12 m 以内，相对 GPS 定位方法的定位精度明显优于 
单点 GPS。 

4结束语 

本文提出了一种甚于差分 GPS 原理的不需要固定甚站的 
相对 GPS 方法。遡过协调定位节点的工作，使节点在同一时 
刻采用同一组卫星进行定位，然后利用同时刻相同卫星借氏 
下得到的位置数据来计算节点之间的相对位置。由于该方法 
不番要固定的甚站即可实现差分定位，对节点的移动特性无 
要求， 适用于 Ad Hoc 网络节点的相对定位。 
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5结束语 

本文设 计的监 测系统 在监测 信息釆隼时，平均每秒占用 

的 CPU 仅为0 093%, Mil (数据产生逨率为0 216 KB/s, 且只 

占用少重内存资源。该系统对被 监测系 统运行的扰动和网络 

带宽的影响极小，实现了标准化、高扩展性的数据传输方式。 
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Abstract: It is difficult to evaluate the document collection partition in distributed information retrieval. Recently, 
there is no clear evaluation criterion for the document collection partition problem. In this paper, two partition 
models are built to formulate the document collection partition problem from the essence of the problem itself and 
they can be used as the evaluation criterion of the document collection partition problem. A Huffman_encoding_like 
algorithm is introduced to compute the optimum partition solution given a test query set. The optimum partition 
solution is a good reference of other partition solution. The experimental results show that the two models are 
effective document collection partition evaluation criteria. 

Key words: distributed information retrieval; document collection partition; Huffman code 

摘要：分布式信息检索的文档集合划分方案的评价是一个困难的问题，目前还没有良好的评价标准.从文档集 
合划分问题本身出发，给出了两个划分模型来刻画文档集合划分问题，从而使这两个模型可以作为文档集合划分的 
有效评价指标.在此基础上，提出了 一种类 Huffman 编码的模型快速求解算法，可以求出在给定查询测试集情况下的 
最优文档划分方案，该方案可以作为其他文档划分方案的参考.实验表明,两个文档划分模型可以成为有效的文档集 
合划分评价标准. 

关键词：分布式信息检索;文档集合划分; Huffman 编码 
中图法分 类号： TP311 文献标 识码 ： A 

近年来 , Web 信息增长迅速，尤其是当博客、网络论坛、个人主页等动态网页出现并流行时，更使 Web 信息 
达到一个空前的规模 . 据 Hobbes' Internet Timeline 统计，截止至 lj 2005 年 8 月，互联网上 Web 服务主机数已达到 
70 392 567 台，著名的搜索引擎 Google 声称索引的页面数已超过 80 亿，而这也只是全部网页中很少的一部分 . 
迅速增长的 Web 信息给检索系统带来了巨大的挑战.传统的集中式搜索引擎对于每个查询都搜索全部文档集 
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合，当数据规模很大时，其计算开销也相应增加.而分布式信息检索能够通过仅搜索部分文档集合，就可以给出 
检索结果，是海量信息检索的有效解决方案 [1] .分布式信息检索主要包含“集合划分” [2] 、“集合选择” [34] 、“单数 
据集合检索”、“结果合并” [5 ' 6] 等几个部分. 

“集合划分”是构建分布式系统的第1步，也是至关重要的一步，因为文档集合划分的好坏直接影响到分布 
式信息检索的质量 [1 ， 2] .在以往的研究中，对于文档集合的划分常常采用 '些启发式的信息 [2] ,例如，将相同主题 
的文档划分在同一个集合里.但对于文档集合划分的原则没有明确的论断，尤其是在文档集合划分的评价方面 
没有统一的标准,使得不同的划分方案不能合理地进行比较.由于没有专门的评价方法，在以往的工作中，对于 
文档集合划分的评价通常采用最终分布式信息检索结果的质量来评价文档集合划分的好坏，但这种评价是 • 
种间接的评价，最终分布式信息检索结果的优劣不仅取决于“集合划分”，还受到“集合选择”、“单数据集合检索” 
以及“结果合并”的影响.因此，这种方法对于文档集合划分的评价是不精确的. 

本文从文档集合划分的基本问题出发，针对文档集合划分问题进行建模，从理论上给出了一个最优划分方 
案.通过这两个模型，可以对文档划分问题进行有效的评价，同时，按照该模型可以计算出给定查询测试集的最 
优的划分方案. 

1文档集合划分的问题描述 

分布式信息检索的过程可以如下描述 :将文 档划分成若干子集合，在检索时，首先找到最相关的部分子集合 
(集合选择)，再对这部分子集合进行检索，找出其中的相关文档(单数据集 
合检索)，呈现给查询者.分布式信息检索的集合划分问题，实际上要回答 
这样两个 问题: •是文档应该被划分为多少个子 集合; 二是每个子集合应 
该包含哪些文档.直观的想法是， • •个查询的相关文档应该分布在_ •个或 
尽量少的数据集合中，这样，检索时才能尽量减少不必要的查找. 

如果文档和查询之间是“一对一”或者“多对_ •”的关系，如图 1( a ) 所示 
(连线表示相关性)，那么划分问题非常简单，只要 将同- •个查询的相关文 
档放入一个子集合中就可 以了; 但文档和查询之间往往是“多对多”的关 
系，如图 1( b ) 所示，此时，要保证同一个查询的相关文档都处在同一个文档集合中就可能会出现冲突的情况，此 
时，就要寻找一种更好的划分方法. 

2文档集合的划分模型 

2.1 文档集合划分的优化目标 

通过对文档集合的划分，我们希望分布式信息检索系统能够用最少的计算开销获得最好的检索结果.这是 
一个多目标规划问题，既要检索的结果好，又要检索的文档数量少.要使检索的结果好，那么，被选择来进行检索 
的文档集合中一定包含全部查询的相关 文档; 另一方面，要使检索的文档数量少，就需要被选择来进行检索的文 
档集合含有尽可能少的不相关文档.为了更好地表达问题，我们定义“待查询文档数”和“平均待查文档数”这两 
个概念. 

定义 1( 待查询文档数). 待查询文档数是指在给定一种文档集合划分方案的条件下，对于一个查询，包含其 
相关文档的各文档集合所含的文档数之和. 

定义 2( 平均待查询文档数). 在给定一种文档集合划分方案和一组查询的条件下，对于每个查询,计算其 
“待查询文档数”，平均待查询文档数是指所有查询的待查询文档数的算术平均值. 

显然，对于每个查询，我们都希望其“待查询文档数”能够达到最小，“待查询文档数”的最小值就是该查询的 
相关文档数.但是，通过上面的文档集合划分问题的描述可知，在实际操作中，使每个查询的“待查询文档数”达到 
最小是不可能的.因此，文档集合划分的优化目标就是通过变换文档集合的划分方案，希望给出-种“平均待查 


Doc Query Doc Query 



⑻ ( b ) 


Fig . 1 The relationship between 
document and query 

图 i 查询与文档的对应关系 
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询文档数”最小的文档集合划分方案. 

2.2 文档集合划分优化问题建模 


2.2.1 文档集合划分模型1 

在分布式信息检索过程中有两个阶段的检索操 作:第 1阶段是集合选择过程，这一阶段文档集合被看作是 
一个虚拟的文档，采用与文档检索相同的算法，检索到相关的文档 集合; 第2阶段是对被选择的文档集合进行检 


索，找出与查询相关的文档.我们建立下面的模型来刻画数据集合划分问题，令为用户输入的查 
询集合 ，& 为查询％的相关文档集太为文档集被划分的子集合的个数,\0'=1，2，...,幻为第/个子集合.在检索时， 
首先要在尤个子数据集中选择出含有相关文档的子集合，这些子集合满足然后再对这些子集合分别 
进行检索.因此，对于查询集合..，《„}中的每个查询％要检索到其全部的相关文档，需要查询的平均文 
档总数为(这里文档集合也被看作虚拟的文 档)： 


avgdocl = 




qj g( 2 y SjnRj^0 

\Q\ ~ 


⑴ 


上式为划分的子集合个数不确定情况下的文档集划分模型，称为划分模型1.模型1是希望目标函数值 
avgdocl 的值最小，此时，模型参数欠和一组子集合 S ,(;'= l ,2，...， 幻就是集合划分问题在给定查询集 (2 下的最优 
方案. 

上面的模型是基于集合选择和文档检索的检索算法为线性的条件做出的.事实上，如果文档的索引采用倒 
排表结构，搜索时是布尔模型，容易验证算法的复杂度是线性的，“集合选择”时会把子集合当作虚拟文档建立索 
引并检索.因此，“集合选择”的复杂度也是线性的. 

进一步考虑模型1在两种极端情况下的表现.在传统的集中式检索中，没有数据集合的划分，此时，模型1表 

示为 

Z (0 + 况） 

avgdocl = - = N (2) 

\Q\ 

其中， W 为文档的总数，每次查询时，没有“集合选择”的阶段，直接面对全部的文档进行检索. 

另一种极端的情况是，每一个文档都作为一个文档集合，此时，模型1表示为 

砂+ 0 ) 

avgdocl = - = N (3) 

Igl 

在这种情况下，“集合选择”直接查询出来的子集合就是相关文档，不必再对每个子文档集合进行检索. 

这两种情况在实践中是一样的，而按照上面的模型，它们的 avgdocl 值也是完全相同的. 

2.2.2 文档集合划分模型2 

在划分的子集合数量尤确定的情况下，划分主要和文档在各个子集合中的分布有关.因此，这时模型可以简 

化为 

avgdoc2=^ QS Q** ⑷ 

式 (2) 是子集合个数确定情况下的划分模型,称为划分模型2.模型2所表示的就是“平均待查询文档数”. 
2.2.3 文档集合划分模型3 

上面的模型是在查询出现的概率是均匀分布情况下得出的，而实际查询出现的概率并不一致.如果考虑到 
查询％出现的概率为 ft ， 则模型1可以进一步表示为 
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Z p { K+ S 15 ，- 1 


在考虑到查询出现概率的条件下得到的模型称为模型 3. 

3模型的可行解分析 

将小球放在盒子里的过程可以用来形象地说明文档集合的划分问题.小球可以比作文档，而盒子则代表文 
档集合，对于划分的子集合数量不确定的情况，可以描述为要把 iV 个有区别的小球放在 iV 个没有区别的盒子中, 
允许有空的盒子.在所有的可能中找出一种最好的放置方法，使得模型1的取值最小.由组合数学知识可知，所有 
可能的放置方法总数是 

S ( N , l )+ S ( N ,2)+...+ S ( N , N ), 

其中，为第2类 Stirling 数. 

对于划分的子集合个数确定的情况，可以描述为把 iV 个有区别的小球放置在欠个没有区别的盒子中，不允 
许有空的盒子.那么，在所有可能的放置方法中寻找一种最优的放置方法，使得模型2的取值最小.所有可能的放 
置情况为 S ( N , K ). 

4 文档集合划分问题最优解的快速解法 

由上面的模型定义可知，模型1与模型2之间有如下关系: flv ^ ifocl =/：+ avgfito (：2, 如果求出 avgdocl 的最优解, 
则只要再将欠扫描一遍，就可以求出的最优解.由解空间分析可知，模型2的可行解空间是第2类 Stirling 
数，当文档数很大且划分的子集合个数很多时，可行解空间非常大.因此，采用穷举的方法理论上是可以求得最 
优解的，但实际中却是不现实的. 

下面给出一种针对于两个模型的一种快速求解算法，称为类 Huffman 编码的文档划分算法 ( Huffman _ 
encoding_like partition algorithm ). 

4.1 模型 2 与 Huffman 编码问题的类比 

在这种快速解法中，模型2被等效为一个 Huffman 编码问题，下面比较一卞 Huffman 编码问题和模型2的 
文档划分问题.在 Huffman 编码中，有3个重要的 概念: 字符、字符编码长度、字符出现的频率.字符就是等待被 
编码的 字符; 编码长度表示用多长的二进制编码表示这个 字符; 而字符出现的频率是 Huffman 编码中影响字符 
编码长度的因素.按照字符出现的频度给字符不同长度的编码，出现频度大的字符采用短的编码，出现频度小的 
字符采用长的编码，这样可使报文中码数减少至最小. 

对于模型2,文档集 Z ) 被划分为个子集 5,(;= 1,2，.. .，幻 ，令就是一个要编码的字符，而子集合的模 I 幻为该 
子集合的字符编码长度.如果对于查询集，&，...，％}检索2中的每一个查询时，文档集合 S , 被使用的次数 
就是字符5■，出现的频率，表示为171,其中， r 表示为 T = ltj \ SinRj , j = l ,2,..., n , & f 产0},尺={尺 1 ，/? 2 ，...凡}为查询集对应 
的相关文档集. 

经过这样的类比变换，计算模型2的 avg (/ oc 2 最优值就是希望找出一种与之对应的 Huffman 编码.最优解的 
构造过程采用自底而上构造一棵 Huffman 树，初始状态下，每个文档都是一个独立的文档集合，进而选择两个文 
档集合合并，合并的过程与 Huffman 编码相同.但在模型2计算字符 S ,_ 出现的频率171时，如果121=1，我们规定此时 
字符出现的频率为0,因为此时该子集合的所有文档都是同一个查询的相关文档，没有出现一个文档属于多个 
查询的情况，不会影响到 avgdocl 的结果. 

4.2 类 Huffman 编码快速求解算法 

具体的划分过程可以模拟 Huffman 树的构造过程，算法可以描述 如下： 

令 j 表示每次迭代中划分的子集合个数,表示第 A : 次迭代, iV 为全部文档总数. 



140 


Journal of Software 软件学报 Vol .19, No . l , January 2008 


(1) 初始条件下每个文档为一个子数据集合，此时 j = A ^= l . 

(2) 分别计算两个模型的最 优值： 

avgdoc 2 k = X S 15 " 1 /'2 I . 
qj^Q s/nRj^0 I 

avgdoc 1 k = j + avgdoc 2 k . 

(3) 计算第 A 次迭代中任意两个子集合 S ， $ 的合并代价，计算方法 如下： 

令 

S' = S k x yjS k y , 

T={tj\tj=S' i ^ RjJ = 1 ,2, ...， m , 且 f 产 0 } ， 
cosf=iyixm. 

取合并代价 cost 值最小的两个集合 M ，# 进行合并(如果有多个最小值相同的情况，可以任选•组进行合 
并)，将合并后的集合 S ' 取代原来的两个子集合 S ， <，形成一种新的集合划分方案，此时，子集合个数少了一个， 
即迭代次数 k = k + l . 

(4) 如果子集合个数>1，则跳到 (2) 步继续执行 

(5) 通过上面的计算，可以得到一组 avgtfocl *" ，其中，为第 t 次迭代时模型2的最小值， 
其所对应的一组子集合#为模型2的最优解. 

(6) 扫描一遍 avgctocl 4 , 通过比较求出 avgctocl 4 的最小值 min (/ n ， 如 ocl \ 它所对应的一组子集合为模 
型1的最优解.整个构造过程如图2所示. 



Fig . 2 Construction of the optimum solution 

图 2 模型最优解的构造示意图 


4.3 对于最优解的几点讨论 

(1) 在对文档集合 D 进行划分时，如果 D 中的某些文档没有出现在任何•个查询的相关文档集合中，那么 
这些文档构成子集合 Z )’，£»'={ dMeZ ) 且仏曷 1 /=1，2，...，^}.因为1)'与任何查询都不相关，因此，可以令£>'作为一个 
子集合，或者直接从 D 集合中去除掉，而不会对模型产生影响. 

(2) 如果在查询的相关文档集合 /?={& ，尺 2 ，...,尺„} 中，对于任何 亿而， 都有 尸0 且集合 i ? 的模 1尺1 小于要划 
分的子集合个数或者相关文档集合尺可以被拆分为 F = { 心圮， . 满足对于任何 <，<，都有 
尺, ' n &*0 且 I 尺'1<欠, 则拆分方法如下 :初始 尺'=尺 ，如果 尺' 中的两个元素就将 尺,_，尺 7 拆分为 
R - Rj ^ nR ^ Rj -^ 二个集合，替代原来的 尺, ，&，这个操作不断进行，直到 F 中任何两个集合的交集都为空为止.当 
集合或 i ?' 符合上面的条件时, avgdocl 的最优值是 
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n 

t' R .' 

min(avgdoc2) = -- . 

n 

这是 avgdoc2 最优值的上界.在这种划分中,每个查询的相关文档被划分在一个或几个集合中，在检索时，被 
选择的文档集合只含有与该查询相关的文档，没有与查询无关的文档. 

5算法复杂度分析 


在类 Huffman 编码的划分算法中,主要的计算过程就是每次要找到需要合并的两个子集合的过程，实际上, 
求最优解的过程可以采用动态规划的算法 :在第 1次求待合并的集合时，需要计算两两子集合的合并代价，此时 

的比较次数为 釋 _ 1 、 ;但当第2次求待合并子集合时，可以利用上次的部分计算结果，在上次的计算结果中, 
2 

只有与上次合并的两个子集合有关系的结果是无效的，其他结果都可以继续利用，同时，需要添加此次新生成的 
集合与其余各集合的合并代价，此时的比较次数为 iV _2 次; 其后的合并计算以此类推，比较次数逐次递减.因此， 
对于模型1，总的比较次数为 

^l + gv- 2) + (j y— 3)+ ... +1 = ^^ + (Af - 2 f- 3) . 

而对于模型2,只要合并到结果个数为尤时就可以结束.因此，比较的次数为 


2 2 2 
从而，模型1和模型2采用类 Huffman 编码的划分算法的时间复杂度是 0( iV 2 ). 由于采用动态规划计算时需 

要保存前一次所有的比较结果，因此，所需要的空间开销为 攀 _1) . 

2 


6划分模型作为文档集合划分的评价标准 


文档集合划分作为分布式信息检索的一个步骤，对于它的评价可以采取分布式信息检索的结果作为评价 
的标准，分布式信息检索的评价通常采用检索评价的准确率与查全率来进行评价.但因为整个检索过程还涉及 
到“集合选择”、“单数据集合检索”以及“结果合并”等过程，这些部分都将对最终的检索结果产生影响，从而造成 
对文档集合划分评价的不准确.好的方法是对数据集合划分算法直接进行评价. 

按照对文档集合划分问题的分析，模型1和模型2可以作为文档集合划分的评价标准.如果知道了查询的 
相关文档集就可以对不同的文档集合划分方案进行评价，确定哪一种划分方案更好.如果两种集合划分算法的 
划分子集个数不同，可以采用模型1来进行 评价; 如果两个集合划分算法的划分子集个数相同，则可以直接采用 
模型2进行评价. 

具体的评价过程可以如下进行 :如果 要对某种文档集合划分算法 | 进行评价,首先采用算法 f 将文档集合划 
分为若干子集合，构建分布式信息检索系统，输入一定数量的查询，并在检索结果中找出查询所对应的全部相关 
文档.通过这个过程，我们就可以得到模型计算所需要的查询的相关文档集，从而可以将该算法划分的文档集合 
代入到模型1中，计算出对应的模型1的值.此时，模型1的取值就是该文档集合划分算法的评价值，同时，我们还 
可以利用本文给出的模型最优值求解算法，计算出最优的模型取值作为评价参考. 

上面的评价方法是基于给定查询测试集的，测试集的客观性对文档集合划分方案的评价将产生很大的影 
响.一个“好”的文档集合的划分结果，只是在给定查询集下的“好”的划分结果,对于其他查询集则不 '定是好的 
划分结果.在实际中，可以采用查询日志对划分的结果进行评价,查询日志具有很好的预测未来查询的能力.查 
询在日志中重复出现的情况是非常高的，在日志中出现的查询，在未来可能会以一定的概率重复出现，从而利用 
查询日志可以预测未来查询的出现情况.这样，如果我们用查询日志来评价划分的结果，那么对于未来的查询也 
有很好的指导意义. 
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7 实验 


实验的目的一方面是通过实验对文档划分模型的最优解进行分析与讨论，另一方面是验证本文提出的文 
档划分模型可以作为有效的文档集合划分评价标准，可以对不同的文档集合划分算法进行评价比较. 

7.1 实验的设计 

7.1.1 文档划分模型最优解的分析实验 

在这个实验中，我们通过给定一个文档集合，并给出- 个 查询集对应的相关文档集合，讨论在给定的相关文 
档集合的条件下，文档划分模型的最优解. 

7.1.2 文档划分模型作为文档划分评价标准的实验 

在这个实验中，对于一个给定的文档集合，我们分别采用两种不同的文档集合划分方法对文档集合进行划 
分: 一种方法是基于内容聚类的 方法; 另-种方法是随机的文档划分方法.基于内容的聚类方法采用了 ^-Means 
聚类算法，文档相似度的计算采用了向量空间模型，将文档聚成52个子集合 (52 的选择是由实验1中模型1最 
优解得到 的); 对于随机的文档划分方法，则是随机地将文档划分到52个子集合中.由于基于内容聚类的方法考 
虑了文档的相关性，因此，应该比随机的方法在文档划分中更加有效，这在文献 [2] 中也有证明.我们通过对比这 
两种方法计算的模型2的值，来观察模型2是否能对这两种划分方法进行很好的评价. 

7.2 实验数据集合的构建 

实验采用了 TREC 中 Web Track 的查询集作为数据集，将2002年~2004年的查询集合并起来，这些查询的 
相关文档构成了整个文档集，3年总的查询个数为324个，相关集合中文档个数为3 853个，其中，不同文档个数 
为3 778篇，有69篇文档同时是2个查询的相关文档，有3篇文档同时是3个查询的相关文档. 

7.3 实验结果及分析 


在文档划分模型最优解实验中，我们对上面的文档集合进行划分，利用本文提出的模型最优解求解算法，求 
出模型1和模型2的最优解，实验结果如图3所示. 



图3是划分的子集合个数从1个变化到3 778个时， 
模型1的 avgdocl 的取值与模型2最优值 avgdocl 变化 
的曲线，其中横坐标是划分的子集合个数，纵坐标是模 
型1 avgdocl 和模型2 avgdocl 值的对数. 

正如前面分析的那样，从图3中可以看出，模型2的 
最优值随着集合个数的增加逐渐下降，当达到某个临界 
点时不再下降.根据模型2的分析，此时的最优值是 


1 601 1201 1801 2401 3001 3601 

Fig . 3 The model value in different partition parts 

图 3 不同子集合个数下模型值变化曲线 




，对于本测试集，其值为 11. 89(3853/324)，从 


avgdocl 的计算结果看，模型1在划分的子集合个数为52 
时取得最优值，此时,的值为102.04,也就是说，按照这种划分算法，对于规模是3 778篇文档的文档集合， 
查询这324个查询平均需要查询的文档数为102篇，这样，对于每个查询只要检索相当于原文档集合的2.6%，就 
可以取得和检索全部文档集•样的检索结果，需要检索的文档数量大为减少. 

进•步地，在文档划分模型作为文档划分评价标准的实验中，分别将基于内容聚类的划分方法与随机的划 
分方法进行了比较，同时与最优划分方法也进行了比较.如果模型1和模型2是一种有效的评价方法，那么期望 


得到的结果是，基于内容聚类的划分方法要好于基于随机划分的结果，3种划分的评价结果见表 1. 

从表1可以看出,基于内容聚类算法的 avgcfocl 和 avgdocl 的值都小于随机划分的结果，这说明，基于内容 
的划分方法“平均待查文档数”较小.也就是说,对于每个查询，按照基于内容聚类的方法，平均只需检索274篇文 
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档就可以检索到该查询的全部相关文档;而按照随机划分的方法，则平均需要检索602篇文档才能检索到该查 
询的全部相关文档.根据以往的研究，基于内容的聚类方法应该好于随机划分的结果，而模型1和模型2的值很 
好地体现了这一点，这说明，模型1和模型2可以作为文档集合划分的有效评价方法.另外，通过与最优划分策略 
比较可以看出，基于内容聚类的划分策略与最优划分方案之间还存在一定的差距. 


Table 1 Comparison of three partition methods 

表 1 3 种划分算法结果比较 



Optimization 

Content-Based 

Random 

avgdocl 

102.04 

325.59 

653.15 

avgdoc2 

50.04 

273.59 

601.15 


8结束语 

文档集合划分问题是分布式信息检索中的-•个重要问题.本文对分布式信息检索的文档划分问题作了比 
较深入的分析，给出文档划分的问题定义，构建了两个模型来刻画文档集合的划分问题，提出了一个类 Huffman 
编码的最优化解法，并将这两个模型作为文档集合划分算法的评价指标.无论是理论上的分析，还是实验的结果 
都证明，本文提出的两个文档划分模型可以作为有效的文档集合划分的评价方法.利用这两个模型可以直接对 
文档集合划分方法进行评价，而不需要通过分布式信息检索的结果来间接地评价文档集合的划分算法，从而克 
服了“集合选择”、“单数据集合检索”以及“结果合并”等过程对于评价的影响.因此可以说，本文提出的两个模型 
是一种有效的分布式信息检索的文档划分评价方法. 
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摘 要：随 着互联网在世界范围内的迅猛发展，通过网络已逐步实现了全社会的信息共享，由此带来的信息安 
全与隐私问题也逐步受到人们的广泛关注。匿名是指用户身份信息的隐私，已经成为许多网络应用的基本需 
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1引言 

随着互联网在世界范围内的迅猛发展，通过网络 
已逐步实现了全社会的信息共享，由此带来的信息安 
全与隐私问题也逐渐受到人们的广泛关注。匿名是指 
保护用户身份信息的隐私,已经成为很多网络应用的 
基本需求。在电子商务、电子选举、电子拍卖、 Web 浏 
览、电子邮件、即时通信、在线医疗咨询以及军事通 
信、情报通信等各种网络应用中，都需要保护用户身 
份以及通信关系等隐私信息不被泄漏。然而，当前的 
互联网协议并不支持匿名性保护，网络管理人员、网 
络服务提供商甚至非法监听者都可以通过各种手段 
来获取网络使用者的身份信息、行为习惯等，来危害 
个人隐私。尽管加密协议(如 SSL 、 TSL 、 IPSec 等)可以 
防止对通信过程中传递的信息内容进行窃听和分析， 
但是通过对网络数据报文的分析仍能解析出通信的 
源地址、目的地址、报文长度、通信时间以及通信频率 
等,从而获知通信者的身份信息、网络行为特征或通 
信者之间的对应关系，危害个人隐私。在这种情况下， 
网络匿名通信技术作为一种保护网络用户隐私的基 
本手段，已经成为学术界、企业界甚至国家安全部门 
普遍关注的重要技术。 

网络匿名通信技术的基本目的是保护通信参与 
者的身份信息不被泄漏。图1以非常通用的术语给出 
了网络匿名通信技术的研究框架，它由消息的发送者 


5、接收者、消息 M ， 匿名系统接口 /、匿名通信信道 
r 和攻击者4构成。框架中信息的发送者、接收者为 
参与通信的双方，通过匿名系统接口与匿名通信信道 
传递消息 M 。 匿名通信系统由一组互连的匿名通信 
构件 C 组成，它们是匿名通信的基础设施，目标是为 
其上的匿名消息传递提供保障。匿名通信构件相互协 
作，对发送者的消息进行变换、延迟等操作(如消息编 
码、插入掩护流量等 ） ，并将变换后的消息 M ' 传递给 
接收方处的匿名通信接口。接收方的匿名通信接口将 
接收到的消息 M ' 还原成初始消息 M 传递给接收者 
Ro 匿名通信的攻击者通过对通信基础设施甚至接收 
者进行流量分析、数据分析等方法破坏系统的匿名服 
务，目的是获取匿名通信参与者的身份信息或通信关 
系等信息。网络匿名通信技术的研究框架给出了两个 
研究 要点： 

( 1 ) 匿名机制与匿名协议的 设计: 设计安全、可 
靠、高效、实用的匿名通信协议，保障匿名通信参与者 
的身份不被 泄漏； 

(2) 匿名系统的攻击 分析: 分析匿名通信协议所 
有可能受到的攻击,并研究相应 对策; 分析匿名通信 
系统的匿名性能。 

匿名技术的研究始于 1981 年, Chaum 提出消息 
混合 (MIX >>酌思想并将其应用到不可追踪的电子邮 
件系统中，成为此领域的开创性技术。最初十年中，由 



匿名通信构件(： 

Fig . 1 Research framework of anonymous communication techniques 
图 i 网络匿名通信技术的研究框架 
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于互联网尚未普及，针对网络匿名技术的研究并不多 
见，但是，在此阶段提出的一些基本匿名机制如 
MIX 、 DC - Net [2] 等为匿名技术的研究奠定了非常坚实 
的基础，这些匿名机制至今仍广为应用。进入20世纪 
90年代，伴随着通信网络尤其是互联网的飞速发展 
以及新的网络应用的不断产生与普及,匿名技术得到 
了长足地发展。本文针对互联网上匿名技术进行研 
究,从匿名的定义与衡量方法、匿名实现机制以及匿 
名系统的攻击技术分析等方面总结匿名技术的研究 
进展与现状,并探讨匿名技术未来的研究方向。 

2匿名的定义及度量 
2.1 匿名的基本概念与分类 

所谓匿名，是指“在一组对象的集合（即匿名集 
合 , anonymity set ) 中不可识别的状态” [3] 。匿名集合中 
的成员以及每个成员的概率大小依赖于攻击者的知 
识，匿名集合的大小可以用来评价匿名性的强弱，匿名 
集合的变化可以用来衡量攻击者对匿名系统的攻击 
效果。 

根据通信过程中受保护角色的不同,通信系统中 
的匿名保护通常可以分为如下3种形式 [3] :发送者匿 
名、接收者匿名和通信关系匿名。发送者匿名或接收 
者匿名的情况下一定是通信关系匿名的，但是通信关 
系匿名的前提下发送者或接收者不一定是匿名的。例 
如在某些情况下虽然发送者与接收者之间的通信关 
系是匿名的，但是通信双方却知道对方的身份。根据 
匿名保护实现机制的不同，通信系统中的匿名保护可 
以分为 两类: 计算匿名和信息理论匿名。其中计算匿 
名的基本假设是攻击者拥有的计算能力不足以破解 
匿名通信协议，而基于信息理论的匿名则依赖于无限 
计算能力都不可破解的问题。从匿名保护的层面来 
看，匿名可以分为数据匿名和连接匿名。数据匿名指 
的是在数据通信过程中过滤掉可能泄漏个人身份信 
息的数据，如 cookie 等,而连接匿名指的是在通信过 
程中网络连接本身不泄漏身份信息，攻击者不会通过 
流量分析来破坏匿名保护。 


2.2 匿名性的度量方法 
2.2.1 匿名性的定性描述 

文献 [4] 给出了匿名等级的概念，最早对网络计 
算机系统中的匿名进行分级描述，匿名性被分为从 
“无用户标识”到“超级标识”6个等级。这是第一个对 
匿名性进行评价的尝试，但是评价方法是定性的，并 
且不是基于匿名集合概念的。 

Reiter 和 Rubin 在分析 Crowds 系统[ 5 ]时提出匿 
名度的概念，用来描述和衡量匿名性能。匿名度被描 
述为从无匿名到完全匿名的连续区间，其间含有若干 
个关键点(如图1所示），并给出了各个关键点的非形 
式化定义。其中 ， probable innocence 关键点定义为真 
实发送者，被攻击者判定为发起者的概率应该小于 
0.5 0 Crowds 系统就是基于这种定义对系统进行匿名 
性分析的。 


absolute beyond probable possible , provably 

1 GXD0S6Q 

privacy suspicion innocence innocence exposed 

Fig .2 Degree of anonymity [习 

图 2 匿名度 @ 

2.2.2 匿名性的定量描述 

Berthed 等人给出了一种基于匿名集合大小的匿 
名度定义％匿名度 4= lb ( A 0, 其中况是可能的消息 
发送者的个数，也就是发送者匿名集合的 大小。 这种 
方法没有考虑到攻击者可能通过一定的攻击手段获 
得相关信息后,对匿名集合中对象判定概率的不一致 
性。因此，这种匿名度的定义方法无法表示攻击者进 
行攻击获得部分信息后匿名性的 变化。 

文献 [7] 提出了一种基于概率论的匿名度定义。 
Shields 等强调在系统中的不同对象的匿名度并不是 
全部相同的。这种匿名度定义考虑了不同对象攻击者 
赋予的概率不同，因此更适合于描述单个对象的匿名 
度，但是在描述总匿名度时采用的是单个对象匿名度 
的最小值，无法精确反映整个系统的匿名保护程度。 
基于信息论的匿名性描述方法是目前研究领域 
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广泛接受的方法。文献 [8-9] 分别独立给出了基于信 
息熵的匿名度定义方法。定义匿名集合为 5=(.,,^, 
其中 AMSI 。 定义 X 为离散随机变量，其概率 
密度函数为其实际意义为攻击者赋予匿 

n 

名集合中的成员\的概率为, $凡=1。则随机变量 

i=l 

n 

X 的熵为 ： H ( X )=-^ Pi U Pl ) 。定义为最大熵，有 

i=l 

4= lb ( iV ) ，则攻击者获得的信息可以表示为 H U - H ( X ) 0 
由此，可以定义匿名系统的匿名 度为： 


当匿名集合只有1个元素时，定义系统的匿名度 
为0。矣1,当匿名集合中的1个成员被认定是消 
息发送者的概率为1时，系统的匿名度最小 j =0; 当 
匿名集合中所有的成员被认定为消息发送者的概率 
均相等时 (九 =1/ A 0, 系统的匿名度最大，扣1。 

这种定义方法不光考虑了匿名集合的大小,还考 
虑了匿名集合中不同成员的概率分布，因此能够更好 
地反映攻击者获取部分信息后匿名集合中成员概率 
分布的不均勻性。文献 [10-13] 也分别对基于信息论 
进行匿名性度量进行了研究。 

3匿名的实现机制与应用 
3.1 匿名的实现机制 
3.1.1 代理机制 

代理通过修改消息的源地址向消息的接收者隐 
藏发送者的身份信息(这里指 IP 地址)。目前互联网 
上有大量的主机提供免费的 CGI 代理 . HTTP 代理、 
Socks 4 代理、 Sock s 5 代理、加密代理等服务。三角男 
孩 (triangle boy ) 是 SafeWeb 公司开发的一'种分布式 
加密代理技术,它采用数据折射、地址伪装的技术，在 
隐匿数据请求者的地址信息的同时，还隐匿了数据回 
应者的地址信息。朗讯个性化 Web 助手 (Lucent 
personalized Web assistant ， LPWA )[ 14 也是一■种基于代 


理的匿名通信技术,它的基本思想是作为本地代理转 
发用户的浏览请求,在用户访问网站时生成与个人信 
息无关的别名,从而隐藏用户的真实身份信息。 

基于代理的匿名通信技术虽然能够对接收者隐 
匿发送者的身份信息,但是由于中间的代理服务器会 
知道用户的真实身份，因此代理服务器被攻占时，匿 
名保护就遭到破坏。 

3.1.2 MIX 

MIX 是目前应用最广泛的源重写类匿名实现机 
制。 MIX 的基本思想非常 简单: MIX 节点接收一定数 
量的消息，通过加密或填充 ( padding ) 等手段修改消 
息的外观( appearance ) ，通过延迟 ( delaying ) 或重排序 
( reordering ) 等手段来修改消息的顺序 ( flow ) ，从而以 
一种隐藏输入输出对应关系的方式输出消息，保证攻 
击者无法准确推断通信参与者的通信关系。多台 
MIX 服务器可以以级联 (MIX cascade ) 或网络 (MIX 
network ) 的形式进行连接，在消息报文通过的一组 MIX 
服务器中，只要有一台服务器正常工作,就可以保证 
系统的匿名性。 

MIX 的消息刷新策略指的是 MIX 在存储转发过 
程中为了改变消息的顺序所采取的措施的统称，关系 
到 MIX 的匿名性以及消息延迟等特性，是 MIX 的设 
计与研究中最重要的内容之一。图3总结了 MIX 消 
息刷新策略的发展过程与分类,消息刷新策略主要可 
以分为批处理型策略 (batching strategies ) 和连续型 
策略 (continuous strategies )两大类，而批处理型刷新 
策略则经历了从简单策略到消息池策略到二项式策 
略的发展历程。消息刷新时机主要包括阈值策略、定 
时策略以及两者的不同方式结合。 MIX 消息刷新策 
略在发展过程中，不断地在 MIX 消息存储转发过程 
中引入新的不确定性，目标是提高攻击者推断输入消 
息、输出消息对应关系的难度。此外，文献 [15] 给出了 
消息刷新策略的统一描述 框架; 国内的时金桥等人 [iq 
对此框架进行扩展，提出了一种两阶段消息刷新策略 
通用描述框架，并在此框架下提出结合批处理策略和 
连续策略优点的混合型消息刷新策略。 
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批处理策略 


MIX 消息刷新策略 


Fig.3 

MIX 的报文组织格式主要可以分为分层加密和 
重加密两种方法。 Chaum 提出的原始 MIX 采用的是 
分层加密的报文组织格式，文献 [17] 指出这种方法的 
缺点是消息报文的大小随 MIX 节点数的增加而增 
加，并提出了基于 ElGamal 加密方案的重加密 MIX 。 
每台中间 MIX 服务器不再像传统的 MIX 服务器那 
样对消息进行解密，而是对消息进行重新加密后发 
送，其密文长度始终是明文长度的2倍，因此消息长 
度不会随着路径的增长而变大。 Golle 等人在 2004 年 
提出了通用重加密 MIX 方案 [ '对上 述方案进行了 
巧妙地扩展，使得 MIX 在对消息进行重加密时不需 
要知道公钥信息。 ElGamal 重加密 MIX 协议的弱点是 
不能像分层加密的 MIX 协议那样在消息报文中包含 
路由信息，因此就很难应用于自由路由拓扑结构的 
MIX 网络中。文献 [19-20] 对此弱点进行了改进，提出 
URE-Onion 的基于重加密的洋葱路由机制，可以将 
路由信息携带在消息报文中。但是文献 [21] 却发现这 
种方法的安全漏洞，指出通用重加密的密文可扩展特 
性和重加密语义容易带来安全隐患，必须小心使用。 
时金桥等人提出了一种改进的通用重加密报文结构 
以解决其安全隐患 M 。 

可证明行为正确 (verifiability) 的健壮 MIX 方案 


of MIX 

也是 MIX 研究中的大热点，这类方案主要用于匿名 
投票。文献 [22] 提出了一个称为 receipt-free 的投票方 
案，这种方案具有通用可证明性 (universal verifiability), 
即发送者能够证明所有的投票都被计数了，而不仅仅 
是自己的投票被计数。文献 [23] 提出对该协议的一种 
攻击方法。文献 [24] 提出了两个健壮的可证明的匿名 
通道方案，一个基于 r 轮剩余类问题，另一个基于 E1- 
Gamal 方案，并对前者进行了零知识证明。 Abe 和 
Jakobsson 于 1998 年分别提出了两个高效实用的可 
证明 MIX 协议 [25_261 ，其中后者被 Desmedt 和 Kurosawa 
证明是不安全的 [2 ' 为了减少™方案中乱序的代价， 
Jakobsson 在 1999 年提出了 Flash MIX [28] 。Mitomo 和 
Kurosawa 后来发现了针对 Flash MIX 的一种攻击并 
对其进行了完善 [29] 。 Furukawa 等人 M 和 Neff™ 在 2001 
年分别提出了对 ElGamal 密文置乱的正确性进行有 
效证明的方案。文献 [32] 提出了一种优化的 MIX 方 
案。如果没有检测到攻击，则该方案的效率很高，但是 
一旦有错误发生，则该方案不输出任何结果。国内的 
研究者 [33 - 35 也分别提出了安全匿名投票方案。 

3.1.3 DC-Net 机制 

DC-Net 是 Chaum 于 1984 年提出的一种基于信 
息理论的基本匿名通信机制,其实现基础是不可破解 


确定性策略- 
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的数学难题“密码员晚餐 (dining cryptographer , DC ) 
问题” [2] 。 DC - Net 是一种基于消息广播的协议,提供发 
送者匿名服务，在存在可靠的广播隧道的前提下，保 
证接收者匿名。 DC - Net 协议简单而又安全地提供了 
匿名通信服务，但它却有着严重的缺陷: （ 1 歴 名信息 
传输依赖于一个安全可靠的广播信道，即每个诚实参 
与者所广播的消息都被其他参与者未经修改地接收 
到。 Waidner 指出，可靠的广播是一种不现实的假设， 
它不可能通过密码学的手段来获得 (2) 每次只能 
发送一条消息，否则会发生信道 冲突; （ 3 )消息数量巨 
大，每匿名发送一条消息都需要所有参与者广播一条 
消息，这在实际情况中是不可 能的; (4) 共享密钥数量 
巨大,在实际环境中，每次发送新消息时都需要协商 
生成新的密钥，这也是不现 实的。 

Cornell 大学的 CliqueNet 系统 [37] 采用分治的思想 
对 DC - Net 协议进行了改进，目的是解决 DC - Net 协 
议效率低及可扩展性差的弱点。 CliqueNet 虽然在一 
定程度上缓解了广播通信流量大的问题，但它的路由 
层却带来了不必要的网络延迟。当网络规模比较大 
时，路由转发节点对包的转发量将急剧增加，成为网 
络的瓶颈。并且，它同样需要可靠的广播。 Herbivior ^ 
是 Cornell 大学开发的另一个基于 DC - Net 协议构建 
的匿名通信系统，目标是保护发送者和接收者匿名， 
系统可扩展性好，提供高带宽低延迟的高效消息传 
输。 CMU 大学提出的 k - anonymity 协议 [39] 的思想与 
CliqueNet 类似。它同样把整个网络分成许多小的类 
似于 DC - Nets 的单元。每个单元至少有 A 个诚实的 
用户，这样攻击者最多知道消息的发送者 ( 或接收者) 
在这 ft 个用户中，但并不知道是哪一个。该协议匿名 

传递一个消息需要传递 0 (k ) 个额外的消息，当 ft 较 
大时，其通信流量还是很大，并且它同样需要可靠的 
广播。 

3.1.4 Crowds 

Crowds 系统是 AT & T 实验室的 Reiter 和 Rubin 
开发的系统 '目 的是保护用户 Web 浏览的匿名性， 
是最早的基于对等网络思想构建的匿名通信系统。 


Crowds 的基本思想是消息在不同的转发服务器 ( 称为 
jondo )之间随机转发,最终发送给目的节点。这样，发 
送者就被隐藏在一系列转发节点之中。 

Purdue 大学提出的 Hordes 协议对 Crowds 进行 
扩充和改进。 Hordes 在 Crowds 的回路阶段采用组播 
发送应答消息,一方面降低了延迟,但另一方面又降 
低了带宽利用率。与 Crowds 相比, Hordes 通过组播提 
高了抵抗回溯攻击 (traceback attack ) 的能力。不过组 
播在互联网上不是一种被广泛支持的技术，要在今天 
的互联网环境中实现 Hordes 将是一件非常困难的事 
情。中南大学的学者针对 Crowds 系统进行了研究，改 
进了路由方法 [4 M 2] 并进行了负载分析 [43] 。时金桥等人 
则对 Crowds 系统中存在的自私成员对系统的影响以 
及对抗策略进行了研究 [4445] ,提出了一种基于区分服 
务思想的自私行为惩罚机制。 

3.1.5 广播或多播机制 

互联网上的广播或多播可以实现一对多之间的 
通信，多播或广播地址代表一组主机，而不是某一个 
特定的主机。利用广播或多播技术发送消息时，可以 
使通信者隐藏在组播或广播成员中，由此实现匿名。 
典型的系统包括 Maryland 大学开发的 P 5 系统_及前 
面提到的 Purdue 大学提出 Hordes 系统 [7] 等。 

Maryland 大学提出的 P 2 P 匿名通信协议 P 5 采 
用分级广播的思想建立匿名通信网络，实现发送者匿 
名、接收者匿名与通信关系匿名，并且提供用户自己 
在匿名性与效率之间进行权衡的功能，这是它优于 
X 0 r - T ree [ 47 ] 协议的地方。 P 5 声称可以扩展到一个支持 
数千个活动用户同时通信的大规模匿名通信系统，然 
而，它的可扩展性并没有所声称的那样好，当用户数 
很大(大约达到一万)时，该协议效率很低，但它的攻 
击模型却是比较强的。 

可以看出，基于广播/多播的匿名协议的匿名性 
较好,但通信开销很大，而且由于目前的互联网并不 
广泛支持广播和多播，因此这类协议并不实用。到目 
前为止，还没有一个实用的基于这类协议的匿名系 
统。 Shields 在文献 [48] 中进一步详细探讨了多播的匿 
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名性。 

3.1.6 其他匿名机制 

PipeNet 是 Dai 于1998提出的一种匿名机制 [49] , 
它由一系列的转发节点构成,消息在节点之间加密传 
输且所有链路中的消息流都需要保持恒定。当出现指 
定时间片内没有消息到达时，则认为可能发生攻击。 
这种匿名机制在理论上能够提供很好的匿名保护，但 
是在实际网络中并不适用。 

Beimel 等人受日常公交系统的启发而设计了几 
个具有不同时间和通信复杂度的 Buses 协议 ™。 它们 
都依赖于所有用户的协同工作，而且还假定存在一个 
全局的时钟，因而不太可能产生实际应用。其基本思 
想为: 假定有一辆公共汽车,它会在每个用户前面停 
下来，用户在该公共汽车停下来时检查哪些消息是发 
给他的，并改变为这些消息所分配的位置。 

Al-Muhtadi 等人[ 51] 对位置隐私 (location privacy ) 
进行了讨论。其目的在于使攻击者不能确定出用户的 
位置,但他们的系统架构很苛刻,每个数据包都必须 
沿着树进行上传或下传,其攻击模型也比较弱，而且 
基本上没有分析系统的匿名性。 Martin 在文献 [52] 中 
提出了位置匿名，主要讨论在一^域中如何通过否认 
( deniability ) 来获得匿名保护。文献 [53] 展示了如何发 
现 TW 54 酌隐匿服务器的位置，并提出了改进方法。 
3.2 匿名系统 
3.2.1 匿名邮件系统 

电子邮件系统是匿名技术的主要应用之一。从 
1993年开始，历经十余年的发展,匿名邮件系统已经 
由最初的0型系统发展为如今的 III 型系统。 

0型匿名邮件系统 Anony . penet . fi 是最早广泛应 
用的匿名邮件系统。每天发送的邮件个数超过7 000, 
其别名数据库最多保存超过500 000条记录。 Anony . 
penet . fi 最终由于法律诉讼以及用户滥用而于1996 
年8月关闭。 I 型匿名邮件系统 CypherpunkW 于1994 
年投入使用,主要解决了 0型邮件系统的单点失效以 
及在匿名服务器存储大量用户信息的弱点。 II 型匿名 
邮件系统 MixMaster 于1995年开始研究网,主要目标 


是解决 I 型邮件系统在流量分析攻击下消息顺序和 
长度可能暴露邮件去向的弱点。截止到2003年11 
月，网络上大约运行着四十余台 MixMaster 邮件服务 
器，并且大多数同时支持 I 型与 II 型匿名邮件协议。 
MixMinion 匿名邮件系统是目前最新的匿名邮件系 
统，它也称为 III 型匿名邮件系统，同前面的匿名系统 
相比，增加了匿名回复、前向匿名、抵御重放攻击、增 
加掩护流量等特性，安全性有所提高。除了上述0型 
到 III 型匿名邮件系统外， IBM 瑞士苏黎世研究实验 
室开发的匿名邮件系统 Babel 也是一个非常典型的 
系统[ 58] 。 Babel 基于 MIX 思想，采用洋葱消息结构与 
报文填充技术，并同时支持匿名发送与匿名回复。 
3.2.2 匿名连接系统 

WebMkes 系统 w 是由德国德累斯顿科技大学系 
统结构研究所主持开发的一个开放源码项目，目的是 
提供互联网上匿名的、不可监察的通讯服务,保护使 
用者的个人隐私。 WebMixes 系统由4部分组成:本地 
客户端软件 ( JAP 软件）、 InfoServiciMIX 服务器链以 
及远端缓存代理。本地客户端软件作为浏览器的本地 
代理，将本地浏览器的请求多路复用并将数据请求报 
文重组加密发送给 MIX 服务器， MIX 服务器链通过 
加密传输将数据请求发送给缓存代理，并由缓存代理 
通过 MIX 服务器链重新将数据回应加密传输给本地 
JAP 代理,并最终返回用户信息。 InfoService 统计各 
个 MIX 服务器的流量，分析整个系统的匿名程度并 
通知用户。目前, WebMixes 原型系统已经吸引了大量 
的用户使用。 

Onion - Routing 系统 [60] 是由美国海军研究实验室 
(Naval Research Library , NRL ) 主持开发的匿名网络。 
同基于消息的匿名通信系统不同， Onion - Routing 系 
统是采用通道方式构建匿名路径, S 卩消息传输前需要 
先发送控制消息建立通道,此后的消息传输均按照同 
一路径传输，在消息传输结束后拆除通道。 Onion - 
Routmg 系统于2000年1月关闭。 Toi ^ 又称为新一代 
Onion - Routing 系统，支持延迟敏感的 Web 浏览、即 
时通信、 IRC 、 SSH 等应用。目前, Tor 网络的用户已增 
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长至数十万，成为目前应用最为广泛的匿名通信系 
统。国内的大学也对洋葱路由系统进行了研究，提出 
了可靠洋葱路由方案 [61] 、可追踪的洋葱路由方案 [62] 以 
及引入 MPLS 的洋葱路由隐蔽通信模型 [63] 等方案。 

Freedom 系统是由零知识系统 (Zero -Knowledge 
System ) 公司开发的用于匿名网络连接的商用系统 
Freedom 提供 IP 层的支持，利用报文封装支持 HTTP 、 
SMTP 、 POP 3、 SSL 、 IRC、NNTP 和 Telnet 等协 议 。 Freedom 
没有采用传统 MIX 消息混合机制，而是采用简单的 
FIFO 机制以保证消息的传输效率。 Freedom 系统于 
2001年10月由于经济原因而关闭。 

MorphMk 系统％大致可以看作一个基于点对点 
思想的 Tor 系统，它同样是采用通道方式建立匿名网 
络,支持延迟敏感的网络应用。 MorphMk 系统中采用 
共谋检测 ( conclusion detection )机制来防止攻击者控 
制的节点之间相互合作，5皮坏发送者匿名。 Tarzan 系 
统 [67] 是由 MIT 开发的一个基于 IP 层的匿名协议，节 
点之间采用 UDP 进行通信，并采用掩护流量提高系 
统的安全性。 

WonGoo 协议是中国科学院计算技术研究所开 
发的 P 2 P 匿名通信平台 [68 _ 74] ，主要为信息安全、网格 
计算提供支撑技术和实验环境。 WonGoo 主要包括两 
方面 功能: 具有强匿名性的 P 2 P 通讯 ( WonGoo - Link ) 
以及基于内容查找的 P 2 P 资源共享 ( WonGoo - Search ) ， 
可以在这两个功能的基础上搭建各种特色化的 P 2 P 
应用。 WonGoo-Link 与 WonGoo -Search 可以分别独 
立构造并搭建各自的应用。同时， WonGoo - Search 底 
层通讯也可以采用 WonGoo - Link 协议来实现更安全 
地应用。 WonGoo 的底层首先是一个在 Internet 开放 
环境中的可扩展的实用点对点匿名通信协议 ( Won ¬ 
Goo - Link ), 主要是通过分层加密和随机转发实现强 
匿名性和高效率的通讯。 WonGoo - Link 提供3种形式 
的匿名保护来实现强匿名机制，包括发送者匿名、接 
收者匿名和关系匿名。从匿名通讯层次来看 ， WonGoo 
理论上可以支持上百万节点的通讯网络。在任意两点 
进行通讯时采用定向与随机选择两种方式选择中间 


节点，以此来保证通讯的强匿名和高效率。 WonGoo - 
Link 匿名通讯的过程如图4所示。图中 A 与 B 通讯 
时，节点 C 、 D 、 E 表示确定的中间节点，节点 F 、 G、H 
是根据实际通讯情况随机选择的中间节点。 



Fig .4 Communication representation of WonGoo-Link 
图 4 WonGoo - Link 通讯示意图 


3.2.3 匿名存储与发布 

剑桥大学的 Anderson 于1996年提出 Eternity 
Service ™ 系统，目标是抗审查的发布，即任何人想删 
除他所发布的信息都是很困难的。发布者把自己想发 
布的信息提交给 Eternity Service , Eternity Service 再 
把该信息拷贝到随机选定的 Eternity Service 服务器 
上。这样发布者就不知道自己的东西是在哪一个服务 
器上，因而也就无法删除。 

由 Waldman 、 Rubin 和 Cranor 设计的匿名发布系 
统 Publ 1 US ™ 采用了秘密共享的方法。发布者对要发布 
的东西进行加密，然后采用 Shamir 的秘密共享方案〜 
把该加密密钥分割成/ I 份。重建该密钥时只需要其中 
的任意 A 份秘密就可以。之后，发布者挑选 n 个 
Publius 服务器并把加密的文档及一份秘密发给其中 
的每一个服务器。系统再把该文档的名字及相应的 n 
个服务器的地址一起发布,形成一个 URL 。 用户根据 
该 URL 就可以取回加密的文档及每一份秘密，然后 
重建密钥并解密文档。对文档进行加密并分割加密密 
钥的目的是使得 Publius 服务器不能轻易地根据自己 
的喜好读出和删掉文档。 Publius 的一个缺点是一个 
服务器可以通过搜索包含其地址的 URL 知道自己存 
储了明陛文档(但并不知道文档内容)。 

Berkeley 大学的 Rewebber Network 发布系统™， 
MIT 的 Free Haven 项目 M 以及由 Purdue 大学设计开 










陆天波 等: 基于互联网的匿名技术研究 


9 


发的匿名发布系统 GNUneP - 811 都采用了 MIX 的思 
想。而 New York 大学设计开发的 Tangier 发布系统_ 
则采用了文档混合 (document entanglements ) 的思想。 
它把文档进行分块，一个块可以用来构建好几个不同 
的文档，新发布的文档的块必须与已有的块进行合 
并，这样就把新发布的文档与已经发布的文档关联起 
来了。 

Freenet 是点对点思想与匿名应用的经典结合 [83] 。 
Freenet 的设计目标是建立一个保护用户隐私的分布 
式信息存储系统，能够确保信息的匿名发布与匿名使 
用，保证信息存储者的可否认性，防止第三者的 DoS 
攻击，提供高效的信息动态存储及路由。 Freenet 是一 
种自适应的对等网络应用,它允许匿名的作者和阅读 
者发表文章，复制数据和读取数据。 Freenet 中的节点 
是自适应的对等节点,通过向邻节点查询和请求来检 
索和获取数据文件，文件以与位置无关的密钥命名， 
查找和请求文件是用密钥标识和定位的。 Freenet 系 
统是相互协作的分布式文件系统，文件定位与位置无 
关并且被透明地 复制。 Freenet 在文件存储以及文件 
传输方面都采用了缜密的加密手段，是文件共享型匿 
名对等应用的代表。 

4匿名的分析与攻击 
4.1 威胁模型 

在现实生活中，网络匿名通信面临着包括技术、 
法律、政策、道德等多方面的攻击，本文主要讨论匿名 
通信所面临的技术性攻击。为了更好地分析匿名通信 
所面临的攻击，首先要确定对攻击者能力的假设。在 
匿名通信的研究领域中，通常假定攻击者的属性 如下： 

(1) 内部-外部攻击 者：内 部攻击者控制匿名通 
信系统的部分组成部件，如发送者、接收者或者中间 
路由节点等。外部攻击者则控制匿名通信系统底层的 
通信介质,例如可以对通信链路进行报文监听等。 

(2) 被动-主动攻击 者:被 动攻击者只能监听网 
络流量，而主动攻击者除此之外还具有插入、更改、删 
除消息的能力。 


(3) 静态-自适应攻 击者: 静态攻击者在攻击过 
程中占有的通信系统资源是不变的，而自适应攻击者 
在攻击时可能不断改变占有的资源，例如他们可以 
“跟踪”消息的传送。 

(4) 局部-全局攻击 者:局 部攻击者控制着通信 
系统的一部分资源而全局攻击者控制着整个通信 
系统。 

对于匿名通信系统的攻击者来说，可能同时拥有 
其中的几种属性,例如既是主动攻击者又是内部攻 
击者。 

4.2 攻击方法 

时间攻击 (timing attack ) 的基本思想是攻击者利 
用消息进入离开服务器的时间信息来关联消息。文献 
[84] 针对 Web 浏览器访问 Cache 所引发的时间攻击 
进行讨论。文献 [85] 对低延迟 MIX 系统中的时间攻击 
进行探讨,并提出了一种称为“防御性丢失” ( defen ¬ 
sive dropping ) 的掩护消息来抵御时间攻击。解决时 
间攻击问题的一个可能的方法是每个中间路由节点 
采用随机长度的延迟时间。此外，在文献 [59] 中提出 
使用掩护消息来防止时间攻击。 

编码攻击 (coding attack ) 是指如果消息在传输过 
程中存在没有改变的编码,则攻击者可以将系统输 
入输出消息联系起来。编码攻击又称为标记攻击 
(tagging attack ) 。文献 [86-87] 探讨了如何利用标记攻 
击破坏 MIX 系统，文献 [21] 探讨了如何利用标记攻击 
破坏 URE - Onion 机制 1 w _20 ]。 标记攻击的一■种抵御方 
法是对消息进行完整性校验， MixMaster 系统_和 
MixMinion 系统 1571 中都提出了相应的解决方案。此外， 
Danezis 还提出了一'种称为 Minx [ 88] 的报文格式 。 Minx 
采用 AES 加密算法的 IGE 模式，攻击者改变消息中 
的某几位会导致整个消息不可读，由此可以防止攻击 
者在消息中添力口标记。 

流量形状攻击 (traffic shape attack 严 ] 主要包括 
通信模式攻击 （communication pattern attack )、 消息 
频度攻击 (message frequency attack ) 及报文计数攻 
击 (packet counting attack )。 通信模式攻击主要是针 
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对实时交互式的应用。在这种应用中，通常只有一个 
用户发送消息而另夕卜一个用户沉默接收消息。长时间 
对报文发送与接收的时间进行分析，有可能发现通信 
双方的对应关系。消息频度与计数的攻击则是建立在 
对发送接收数据报文的比较上，如果二者频度或数量 
相同，则有可能将其对应起来。解决流量形状攻击的 
方法主要有报文填充、掩护消息流量以及报文分片等 
等。文献 [90] 提出利用消息分片的方法抵御局部攻击 
者的计数攻击。 

交集攻击 (intersection attack ) [s| 基于长时间对用 
户网络行为的观察。对于一个特定的网络用户来说， 
通常登陆时间、交互对象等具有一定的规律，因此，通 
过对不同时间、不同活动的网络用户进行交集分析， 
有可能确定对应关系。文献 [91] 指出 Tarzan 和 Crowds 
系统对于这种攻击都是脆弱的,但其攻击代价会随着 
网络规模的增大而增大。文献 [92-93] 对交集攻击作 
了进一■步地讨论，称之为暴露攻击 （disclosure attack ) ， 
并指出实施这样的攻击等价于求解 CSP 问题 ( con ¬ 
strain satisfaction problem ), 这是一■个 NP 难问题。文 
献 [94 侧给出了一个更有效的 HS 攻击 (hitting set at ¬ 
tack ) , 并对攻击方法进行了优化。 文献 [95] 提出了一 
种称为概率暴露攻击 (statistical disclosure attack ) 的 
攻击方法。目前,如何抵御交集攻击及其衍生出的攻 
击仍是匿名通信领域的开放型 问题。 

Chuam 在其经典 MIX 论文中提到了重放攻击 
(repetitive attack )。 所谓重放攻击，指的是攻击者首 
先记录下待追踪的消息，然后再重新将此消息发送进 
入 MIX 网络以追踪特定消息传输路径的一种攻击。 

发送者 


由于 MIX 节点会对同样的消息进行相同的操作，因 
此两条相同的输入消息必然会引起在 MIX 的输出端 
出现两条相同的消息，攻击者可以确定待追踪的消息 
并由此确定消息传输路径,最终发现消息接收者，破坏 
MIX 系统的匿名保护。重放攻击是一种针对 MIX 的 
十分有效的主动攻击 [U9 , 57 ，' 日寸金桥等人在文献 [16] 
中提出了一种改进的通用重加密洋葱路由机制以抵 
御重放攻击。 

U -1) 攻击是针对 MIX 的主动攻击中最为有效 
的一种攻击。攻击者通过消息延迟或发送虚假消息等 
方法将待攻击 MIX 的内部缓冲区清空，然后将待追 
踪消息与其他攻击者的虚假消息一起发送给 MIX 服 
务器。当 MIX 服务器输出消息时，只有一条消息对于 
攻击者是未知的，则攻击者可以确认这条消息就是待 
追踪消息。 U -1) 攻击在不同环境下有时也称为涓流 
攻击 （trickle attack ) 、洪泛攻击 (flooding attack ) 、混合 
攻击 (blending attack ) 、隔离攻击 （isolating attack )、 
刷新攻击 (flushing attack ) 及 Spam 攻击等。在此前的 
研究中，研究者提出链路加密 [5 '消息时间戳 m 、掩饰 
消息 ™ 以及绕路传输等方法抵御重放攻击，然而这 
些方法却由于实际应用的限制等原因无法完全防止 
重放攻击。文献 [98] 中总结了 U -1) 成功攻击的前提， 
并提出了^ ■种 称为 Regroup - And-Go MIX(RG MIX ) 
的抵御攻击方法。这种攻击方法可以使攻击者成功进 
行 U -1 )攻击的概率降到很低。 

前驱攻击 （predecessor attack ) 是 Reiter 和 Rubin 
在分析 Crowds 系统 [5 啲安全性时首先提出的，他们称 
之为共谋攻击 (collusion attack )。 多个节点共享其得 


接收者 



Fig .5 Illustration of Regroup - And-Go MIX 
图 5 Regroup - And-Go MIX 不意图 
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到的路径信息，从而共同推断消息发送者的身份。 
Wright 等人对包括 Crowd 、 Onion-Routing 和 
DC - Net 协议在内的前驱攻击进行了分析。 

拒绝服务攻击 ( denial - of-service attack ) 是指攻 
击者通过种种手段使匿名通信系统的服务能力降低。 
文献 [101] 针对攻击者阻断访问匿名通信系统进行分 
析，并提出了对抗 手段。 

女巫攻击 (sybil attack )_ 是指攻击者首先向网 
络中植入恶意节点（自己的节点或者控制部分网络节 
点），然后恶意节点把知道的系统信息泄漏给攻击者, 
攻击者再从这些信息推断出通信关系或者发动其他 
的攻击 ( 如前驱攻击等)。在参与者充当转发代理的系 
统中尤其要防范女巫攻击,防止攻击者控制多个主机 
作为参与者加入系统，从而使得系统中相当比例成员 
成为恶意节点，5皮坏系统匿名性能。在 Crowds 系统中 
证明了恶意节点比例必须控制在一定的范围内才能 
达到它所声称的匿名性。当系统对用户加入没有身份 
限制时，实力强大的攻击者是很容易发动女巫攻击的。 
抵抗的办法是采取适当的加入控制策略， MorphMix 
系统岡中就提到一种共谋检测机制，防止受控节点选 
择其他共谋节点组成匿名路径，进行女巫攻击。 

5结束语 

匿名技术除了用于保护互联网上用户的隐私之 
外,还在军事机构、执法机关、情报机构等安全性要求 
很高的环境中有着很重要的用途。在军事上,军事指 
挥中心和各个部门之间的通信，甚至其通信模式的变 
化本身已经暗含了很多有用的信息。而一封加密之后 
的电子邮件,如果它在毒贩和其他尚未被怀疑的人之 
间,或者国防建设的雇员与敌方大使馆官员之间传递, 
显然，它包含某种深意。 

匿名技术发展到今天，虽然取得了一定的成就, 
但还有很多问题有待解决。虽然基于消息的延迟不敏 
感系统在理论上已逐渐趋于完善,但在实践中还存在 
一些问题，而基于通道的延迟敏感系统无论在理论上 
还是实践上都还存在很多问题，需要进一步研究。首 


先,对于延迟敏感系统来说，需要研究如何抵抗一些 
常见的攻击，如重放攻击和泄漏攻 击等; 第二是如何 
发现一些新的攻击手段，以进一步验证现有的匿名协 
议的安 全性; 第三是如何形式化地描述攻击者。对攻 
击者能力的描述将直接影响到协议的安全性。现有的 
形式化方法并不能很好地描述针对匿名协议的攻击 
者; 第四是如何评估匿名系统的匿名性。至今为止，还 
没有一种合适、统一地评估匿名系统的方法，因此，现 
有的对匿名系统的比较都有很大的局 限性; 第五是如 
何对掩饰流的作用进行评价。目前最关键的问题就是 
不能从理论上说明掩饰流到底能不能提高系统的安 
全性; 第六是匿名系统的可控性问题。匿名技术的出 
现带来了滥用问题,如利用匿名系统进行攻击,事后 
无法进行 追查; 利用匿名系统登陆网上银行,让电子 
货币不可追踪，给不法分子提供了洗钱的机会等。为 
了避免匿名的滥用，有必要研究可控匿名技术。但是 
匿名系统的可控性实际上是与匿名性相冲突的一种 
概念，因此要在保证匿名性的情况下提供可控的能力 
是一个难题。最后是研究匿名的经济学问题，即如何 
激励用户自愿地为别人提供匿名保护。匿名技术需要 
依赖通信过程中所有参与人员的共同努力，匿名系统 
的参与人数越多，发送消息越积极，则系统提供的匿 
名保护水平就越高。匿名技术中的经济学问题也已经 
成为匿名技术未来发展过程中所必须解决的问题。 
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Abstract Pattern matching is one of the fundamental problems in computer science. It is the key 
problem of many important scopes such as network information security, information retrieval and 
filtration, computational biology, etc. A great number of security problems have arisen with the wide 
application of pattern matching, especially in network information security systems, such as intrusion 
detection and prevention systems, anti-virus systems, anti-spam systems, firewall, etc. A method of 
algorithmic complexity attacks against WuManber which is a classical multi-patterrn algorithm, and 
the optimal solution of creating the attacking data are presented in this article. Compared with random 
data and the data from network, the attacking data can greatly reduce the searching speed of 
WuManber. Experiments on random data sets show that the larger character set, the better attacking 
performance. And experiments on the data from the network show that the attacking data can reduce 
WuManber searching speed by more than 50 %. It is found that if a small part of the pattern set is 
known, the attack data can be created. Defensively speaking ， it is important that the pattern set must 
be kept secret. This article also provides some strategies of improving the security of network 
information security systems. The attacking data can also be used in checking the system security. 
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摘要模式匹配问题是计算机科学的基础问题之一，是网络信息安全、信息检索与过滤、计算生物学等 
众多领域的核心问题 . 模式匹配技术在网络信息安全领域的广泛应用，导致了许多安全问题 . 
WuManber 算法是一种经典的多模式匹配算法，通过对 WuManber 算法实现原理的分析，给出了一种 
对 WuManber 算法进行复杂度攻击的方法，并对攻击数据的构造问题给出了问题描述和最优求解.实 
验表明， WuManber 算法检测攻击数据的速度明显慢于检测随机数据和网络真实数据的速度，并发现 
只需已知少量的模式串，就可以构造有效的攻击数据 . 根据攻击数据的构造方法，在给出攻击方法的同 
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多模式串匹配问题是计算机科学领域的一个经 
典问题，对它的研究已经持续了几十年，已有的算法 
也有几百个.多模式串匹配算法广泛地应用在信息 
检索、信息过滤、病毒检测、入侵检测、计算生物学等 
方面.近年来，随着网络信息安全应用的发展，多模 
式串匹配技术作为其核心技术之一，也得到了很大 
的发展，尤其是在大规模、超大规模的串匹配、模糊 
匹配、正则匹配、硬件匹配技术等方面，都随着应用 
的强烈需求而迅速发展. 

伴随着众多领域上的各种应用，特别是众多的 
网络信息安全领域的应用，各种安全问题接踵而来. 
对应用系统级别而言，针对性的攻击和对抗无时不 
在，在这个层面上的研究从理论到实战都有很多.而 
在作为系统核心的算法级别层面，跟随着系统也受 
到了攻击和对抗，但是对于算法安全性的相关研究 
工作一直没有受到重视，在实战中更是处于处处被 
动的局面. 

本文力图在模式串匹配方面，以经典的多模式 
串匹配算法 WuManber 为例,研究对其进行算法复 
杂度的攻击，着重在攻击数据的构造方面，给出问题 
的定义和描述，同时给出求解方法.当然，作为矛和 
盾的2个方面，在研究怎样可以构造攻击的同时，我 
们也给出了防守的建议. 

1算法安全性研究现状 

多模式串匹配技术通常用在各种以规则过滤为 
核心的各种过滤系统中.规则的表现形式有多种，使 
用的规则匹配技术也有多种，多模式串匹配技术是 
其一.为了使系统达到较高的性能，在系统的不同应 
用环境中，会使用一种或者多种不同原理的匹配算 
法，以便满足系统的各方面要求，尤其是匹配速度的 
要求.但是，近年来，很多的研究表明 ：算法 （例如模 
式串匹配算法、包分类算法、 Hash 算法等）在安全 
性方面也面临着挑战，这种挑战来主要自于算法自 
身和应用环境两方面. 

从算法本身来说，安全性的问题存在于算法复 
杂度中.文献 [1] 是最早从这个方面进行讨论的.它 
利用系统中的数据结构特征，以及算法的最差时间复 
杂度和平均时间复杂度的差别，构造数据对算法进 
行攻击，从而实现了一类具有低带宽 （low-bandwidth) 
特点的对系统实施 DoS 攻击的方法.文章中以 
Hash 算法为例，进行了详细的说明，并分析了 
Squid Web cache，DJB DNS server 和 Perl 语言解析 


3 个系统中的 Hash 表的脆弱性.最后，作者在 Bro 
系统上进行了攻击实验，表明了此方法的有效 性:在 
6mm 的时间内可以耗尽系统的全部 CPU 资源，同 
时使得系统的丢包率达到71%. 

在认识了算法复杂度和系统脆弱性（可攻击)之 
间的关系后，很多文献开始针对不同环境下的此类 
问题提出了不同的解决方法.文献 [2] 是从 NIDS 系 
统中使用的规则匹配方法来人手分析的，以 Snort 
系统为例，它的规则特征匹配算法存在回溯式的缺 
陷，使得系统性能在某些数据报文下呈指数级下降. 
文章提出了使用增加记忆点的新算法避免了大量回 
溯，并针对网络应用特点给出了 3个优化策略，有效 
缓解了问题.文献 [3] 研究了包分类算法的问题，根 
据算法在匹配规则上的不均衡 （skewed) 现象，提出 
了新的算法，文中对新算法在攻击和防御方面的表 
现进行了分析，最后通过实验给出了其在系统总体 
性能、预处理时间复杂度、空间复杂度、并行处理等 
方面的分析和结果.文献 [4] 设计了新算法 LDM， 分 
析 证明： LDM 算法的最差、最好、平均时间复杂度分 
别达到了理论最好结果： 0 ( H ) ，0 ( h /?« ) ，0 ( « (log 
若从算法复杂度攻击角度而言，使用此算 
法应该是最好的选择. 

在系统级上，怎样快速有效地发现系统规则上 
的漏洞（系统的脆弱性分析)从而进一步构造攻击数 
据也是众多研究人员关心的问题.文献 [5] 中 发现： 
在 Snort 系统中，所有的攻击实例都可以从规则集 
中的若干规则转变而来.文献 [6] 中的 SFET 工具是 
针对 Snort 规则集的 flowbit 缺陷而设计的，它不仅 
可以发现给定规则集的弱点，而且可以生成新的规 
则以阻止那些基于旧规则生成的攻击实例.文献 [7] 
中指出 ：对于 NIDS 系统，如果规则集已知，则比较 
容易构造实例对系统进行攻击，使得它的服务质量 
下降，或者报警过多，文中给出了逆向工程的方法和 
工具，可以分析其规则匹配的过程，并且构造攻击数 
据以规避系统检测，或者构造非恶意数据以使系统 
过报警.其有意义的结论 是：即 使刻意对系统规则进 
行保密，系统的服务安全性也不能完全保证.文献 
[ 8 ] 针对深度包检测 （D P I ) 系统中的正则表达式匹 
配算法，提出了一种评估攻击数据恶意程度的方法， 
并在此基础上结合 cache 参数、算法数据结构的存 
储实现方式等，提出了可针对 NFA 和 DFA 的匹配 
算法方便构造攻击流量的方法，它也可以用来对 
DPI 系统进行性能评测. 
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2 WuManber 算法 

WuManber 算法 [9] 是一种快速的多模式串匹配 
算法，它是 Boyer - Moore 算法的一种派生形式.它 
采用了 Boyer - Moore 算法的框架，使用长度为6的 
字符块 B (block character ) 而不是单个字符来计算 
坏字符 （ bad - character ) 的距离表 SHIFT . 此外，在 
进行匹配时，它使用散列表 HASH 选择模式串集合 
中的一个子集与当前文本进行匹配验证，减少无谓 
的运算 . WuManber 算法的执行时间主要依赖模式 
串集合中最短的模式串长度，它不会随着模式串集 
合大小的增加而成比例增长，其时间要远少于使用 
每一个模式串和 Boyer - Moore 算法对文本进行匹 
配的时间总和. 

WuManber 算法在预处理阶段，主要构造 
SHIFT 表和 HASH 表，一个示例如图1所示.在匹 
配阶段，求出当前匹配窗口内文本片断的末尾块字 
符的散列值 / KB )， 如果该散列值对应的转移距离 
SHJfT [/ KB )] 大于0,则当前窗口内文本片断不匹 
配，将匹配窗口向右移动 SHJFTTWB )] 位； 否则当 
前窗口内的文本可能和某个模式串匹配，利用散列 
值 ZKB ) 选取模式串的一个子集 HASH [/ UB )]， 逐 
个与文本进行验证，以得到最终的匹配成功结果. 


SHIFT Table 


HASH Table 


B 

aa 

ab 

ba 

bb 

SHIFT [ h ( B )] 

2 

1 

0 

0 


a b a 


> a b b a 

b b b 



Fig. 1 WuManber SHIFT table ande WuManber HASH 
table for pattern set {aba, abba, bbb}. Character size is 2. 
b =2. 

图 1 根据模式串集合 {aba,abba,bbb} 在字符块长度为 2 ， 
字符集大小为 2 时构造的 SHIFT 表和 HASH 表 

在串匹配算法的设计和分析中，都是以“模式串 
和文本中的字符都是独立出现并且等概率分布的” 


为前提.在这种前提下， WuManber 算法的匹配时 
间复杂度分析 如下： 

最好时间复杂度 0(6 XWZ mi „) ; 

平均时间复杂度 O ( bXnU -) ①•’ 

最差时间复杂度 O ( bXn ). 

3攻击数据的构造问题 

由 WuManber 算法的原理可以看出，算法的匹 
配时间主要消耗在2个 方面： 一个是计算当前窗口 
的散列值，另外一个是当存在一个可能的匹配时 
(SHJfT 值为0时），对相应 HASH 表项后链接的 
多个模式串进行一一验证.显然，后面的一个耗时要 
远远大于前面一个.因此，在攻击数据的构造中，主 
要考虑使用后面的一个因素，将验证代价作为衡量 
构造数据问题的一个优化目标. 

3.1 符号定义及问题描述 

在后面的描述中，使用符号如 下：字 符集为2, 
|2| = ff ， 模式串集合为 P = {声1 ，々2，…，九），模式串 
的个数为 | P |= r ， 模式串的最短长度为 z mi „ ，文本 r 
的长度为》，字符块 b 的长度为6.长度为6—1的字 
符串集合记为 N . 当前搜索窗口的最后6个字符为 
对应了一个至少有一个模式串 
的候选模式串链表，它的长度记为 

攻击数据的构造 问题： 对于给定的模式串集合 
P ， 构造长度为《的文本 ： r = w 2 62,使得 
WuManber 算法在扫描文本了的过程中， Dxw 的 
值最大. 

攻击数据的构造问题实际是寻找一个字符序列， 
使得在其上扫描的过程中，尽可能多地在 HASH 
链表中进行验证过程.验证过程的代价过高，足以使 
得算法匹配速度下降到一个不可接受的程度，从而 
形成对算法的攻击. 

3.2 问题分析及转化 

对于任意[6，》]，所有长度为々的文本组成的 
集合记为 U k , UU k ，祀[6，》]记为 L 7. 按照文本长度、 


① WuManber 算法的平均跳跃距离 ( ASD ) 决定它的平均时间复杂度 0(6 X «/ ASD ) ， ASD : (/—— 1 ) ( 1 — /min — 1)r ) ，当 • 

t » rXZ min 时 , ASD = Z min ，其中 r 为模式串个数， A 为 SWPT 表的大小.所以 WuManbe ! •算法的平均时间复杂度是 OC 6 X 详细分析见 

文献 [10]. 
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文本结尾的字符块和跳跃距离3个条件,1/可分为若 
干个子集，任一个子集记为 z k , n , s , k ^[_ b , n ~\ ,7 rG N ,5 
e [ i ， z min — 6+1], 它表示长度为々以 7 T 结尾并且当 
前需要跳跃 S 个字符的文本集合.设构造字符串的 
方法 Link\{n i 0) ，兀 eN ,06 2，当 6〉2时，表本 ？ r 的 
后 b —2 个字符加上0组成字符串，例如 ： 6 = 3， tt = 
a 6，(9 =c 则 Link 1 (? r ，0) =6 c ， 当 6=2 时 ， Linkl ( jr ， d ) 
=^，7 reN ，0 ei ：. 设构造字符串的方法 LiM 2(; r ，60, 
表示以 tt 开头 0 结尾长度为 6 的字符 
串，例如：6=3 ，7 r = a 6，(9 = c 则 Link 2{ n , d ) = abc . 

从上述定义可以看出，集合 U 满足以下3条 
性质： 

性质 i . 对于任意々 e [&， w ] ， U z k , n „= u k ,7 rG 
N ， se [ i ， z min —6+ i ]. 

性质 2. XnY =0, X , YeU , X ^ Y . 

性质 3. 对于任意 々 ehH — lLZu .^ TreN ， 
^ e [ i ， z min — 6+ i ] 中的每个文本最后增加一个字符 
eez 后会变为么 +1 ，"，兀 ' e n ，/ e [ i , z min -6+ i ] 
的子集， / 可通过式 （ l ) 计算得出. 

攻击数据的构造，本质上就是在文本的任意位 
置如何决定和决定放哪个字符，最终组成的文本字 
符串在匹配时可以达到设定的最大代价目标.该问 
题可以转化为有向无回路图求最长路径的问题.此 
有向无回路图 G 的顶点和边 e 的定义如下. 

顶点 w :将上述 Zt, n , s 

[ l ， Z min — 6+ l ] 转化为 G 中的节点，定义为叫,^，与 
—-—•对应； 

边6和<?上的权值 C : 对于一个顶点 14 ,^，对任 
意一个字符通过式 （2) 计算出/，/，存在一条 
从顶点指向 ' Wi + i ,/,/ 的边，记为 e ( v t ,„, s , 
14 + 1 ././ )，其上的权值记为 c ( e ( v k ，7 T ， i _ ，*^走+ \, n\s ))，可 

通过式 （3) 计算得岀，将该路径标记为仏 
SHlFT\_h{Link2{7i ? 

, if 5 = 1 3 SHIFT\^h(Link2(7r 9 d))^\ 7 ^ 0 ； 

1, if s = 1 且 SHIFT\^h(Link2(7z= 0 ； 
5 — 1 ， else. 

( 1 ) 

n = Link 1 (7 ： ， 6). (2) 

c ( e ( v k , K , s , v k+l , n ',/))= 

HASH.\_h{Link2{n ? 

if 5 = 1 and SHlFT\_h{Link2{n= 0 ； 

0 ， else. 

(3) 


为了算法表述的方便，在上述图的基础上增加 
一'个起点 Vso Urc 6 和一'个终点 Vsink : 指向全部 

yB , n , SHIFTLh ( n ) l ，沒 d 7 T 6 N ，边上的权值为 HASH[/l 
( Link 2(7 r ,6 ))^\ ，标记为 Link 2{ nfd ) ;全部 v n , n , s ,7 rG 
N ， 节点 K [ l ， Z min —6+1] 都指向 V sink ，边上的权值 
全部为0,不需要标记. 

攻击数据的构造问题可以转化为 ：在如 上述方 
法构造的有向无回路图 G 中，寻找一条从起点 

到终点 V ； sink 的路径，其边上的权重最大. 

3.3 攻击数据构造问题的求解算法 —— SPEAR 

Pseudo-code of SPEAR : 

Input {^,( 7 , SHJFT [], HASH []}； 

Output { T = tit 2 ••• t n }. 

1) Add node v k ， n ， s , k G [6，”]，7 r 6 N ， s 6[ l ， 
Zmin — 心 +1] to G ; 

2) Add edge e ( v kj7r , s , v k+1 ,^ , s > ) — , 

7 rG N ? 5 G [ 1 ? I mm —办 +1] to G according to the 
formula (1) and (2); 

3) Calculate c(e(v k , K , s ? v k +\, n ', 5 ' ) ) according to 
the formula (3)； 

4) Add starting node and ending node to G 
with there edges ； 

5) Find the longest path L = “ l 2 … l n - lm . n+h 
according to Dijkstra Algorithm ； 

6) ^min _6 + 2 # * * ~ A 4 *** ^n~l^ n +b and ti — 

Va ， aG 2， i = l ，2, … drmn ~ b . 

当攻击数据的构造问题转化为在一个有向无环 
图中寻找最长路径时，就可以使用经典的 Dijkstra 
算法来求解，此处不阐述.需要注意的 是：求 解的权 
值最大路径是构造攻击数据的一个“痕迹”，真正的 
攻击数据文本需要按照路径上附加标识的符号信息 
具体地逐一生成. 

例 1. 对于模式串集合 { aba ， abba ， bbb } ，在6 = 
2，( r =2 ，n = 6 时，图1是 WuManber 算法预处理阶 
段产生的 SHIFT 表、 HASH 表，图2为根据 
SPEAR 算法构造图 G . 

由于 WuManber 算法是从第/*一^+1 = 2个 
字符开始计算第1个字符块的，在这之前的字符可 
在字符集中任意选取，这里假设取 a . 在图2中，根 
据权值最大的路径（图2中粗线）上面的符号信息， 
可以依次得到字符串 bbbbb . 前面加上字符 a ， 最终 
构造岀的长度为6的攻击数 据为: abbbbb . 
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Fig. 2 The graph G according to SPEAR. 
图 2 根据 SPEAR 算法构造的图 G 


4 实验与分析 

实验的目的有3 个：一 是测试 SPEAR 算法本 
身的 性能； 二是测试 SPEAR 算法产生的攻击数据 
的攻击效果，分为随机数据和真实数据2个 方面； 三 
是分析影响攻击效果的因素.实验环境为 Red Hat 
Enterprise Linux Server Release 5. 2 操作系统，系 
统配置为 Quad-Core AMD Opteron ™ Processor 
2376 处理器， 16 GB 内存.实验结果中的所有时间数 
据都是通过 Linux 下的 “ tune ” 命令测量得到的. 

4.1 SPEAR 算法的性能 

在本组实验中，我们取《 = 1 024，6 = 2 ， r = 
1 000,改变和 Z min 的值构造随机模式串，测试 
SPEAR 算法的性能.实验结果如表 1. 可以看 出：构 
造时间与和 Z mm 都有正相关性，其中增大导致构 
造时间增加的幅度大于 Z „ in 增大导致构造时间增加 
的幅度. 


Table 1 Comparison of Performance with Different Character 
Sets and the Length of the Shortest Pattern 
表 i 字符集大小和最短模式串长度不同时的性能比较 


min 

Time/s 

32,10 

0. 088 

32,100 

0. 169 

32,1000 

0. 242 

64,10 

0. 469 

128,10 

1. 664 

256,10 

6. 286 


4.2 攻击效果 

为了评价 SPEAR 算法生成的攻击数据对 
WuManber 算法的攻击效果，在相同的环境下，我 
们分别让 WuManber 算法检测攻击数据构成的文 
本 （Worst Text ) 和随机生成的文本 （Random Text ) , 


通过检测速度的变化 （Speed Reduced ) ，来分析攻击 
效果.通过式 (4) 来计算 Speed Reduced . 

WorstTextSpeed 


Speed Reduced = 1 


(4) 


RandomT extSpeed ' 

随机数据下的攻击 效果： 随机数据包括随机的 
模式串集合数据和随机文本数据，它们都是在“模式 
串和文本中的字符都是独立出现并且等概率分布 
的”的前提下构造的，在它们上面的实验结果可以认 
为是算法的平均性能.因此，本组实验中，攻击数据 
采用 SPEAR 算法在随机模式串集合上 构造； 正常 
数据使用随机生成的文本数据. 

影响 WuManber 算法匹配速度的主要因素是 
和我们分别进行3组测试，在 n = \ 024, 
b = 2 的前提下分别改变和/_，观察算法受到 
攻击时的表现.实验结果如图 3-5. 

从图3中可以看出，随着 (7 增大 ， Speed Reduced 
增大，且幅度很大.当时 , Speed Reduced 大于 
80%,攻击效果 明显； 当较小时，攻击效果不明显， 
因为 WuManber 算法本身比较适合大字符集的情 
况，小字符集时性能本来就很差，所以构造的攻击数 
据也不会导致性能的大幅度下降.从图4中可以看 
出，随着 r 增大 ， Speed Reduced 有减小的趋势，但幅 
度很小.从图5中可以看出，随着 w 增大 ， Speed 
Reduced 有增大的趋势，但幅度也很小. 

真实数据下的攻击效 果：在 上面的实验中，测试 
数据中用到的模式串和文本都是随机产生的，和真 


实数据还有一定差别，因为这些数据在字符集上是 
均匀分布的，因此最好的测试是用真实数据. 

在本次实验中，我们采用了 2组真实的模式串 
集合数据，一组是从 Snort 规则中提取的，一组是从 
ClamAntiVirus 病毒库中提 取的： 

Snort 是一个开放源码的 NIDS , 它的最新版本 
可以在网站 http ：// www . snort , org / dl / 下获得•我 
们使用了 Snort 2. 8. 3版本，从它的规则中选取长 
度大于4 B 的关键词共5 000个作为模式串集合. 
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Length of the Shortest Pattern 

( a ) 


Length of the Shortest Pattern 
(b) 


5 Comparison of attacking performance with different length of the shortest pattern 
(Character set size is 256, pattern set size is 1 000). 

图 5 最短模式串长度不同时的攻击效果（字符集大小为 256, 模式串规模为 1000) 



16 64 

Size of Character Set 


16 64 

Size of Character Set 


Comparison of attacking performance with different size of character set (Pattern set 
size is 1 000， the length of the shortest pattern is 10). 

图 3 字符集大小不同时的攻击效果 ( 模式串规模为 1000, 最短模式长度为 10) 


Clam Anti Virus 是一个开放源码、免费授权的 
防病毒软件，它的病毒库是随时更新的，最新版本可 
以在 http : / / www . clamav . net / binary , html 井 pages tart 
下获得.我们使用了 ClamWinFree AntiVirus 0. 90 
版本，从它的病毒库中提取了长度大于 10 B 的关键 
词共20 000个作为模式串.因为其中许多的病毒签名 


中包含各种通配符，不适于在精确串匹配中使用，因 
此我们提取了这种签名中最长片断. 

测试使用的正常数据来自于 MIT 公开的一组 
真实的网络数据，它的原始目的是用来对网络入侵 
检测系统进行评估.数据集可以在 http ：// www . 11. 
mit . edu / IST / ideval / 下获得.我们使用了 mit 1999 


500 1 500 2 500 3 500 4 500 

Size of Pattern Set 


1 500 2 500 3 500 4 500 

Size of Pattern Set 


Comparison of attacking performance with different size of pattern set (Character set 
size is 256， the length of the shortest pattern is 10). 

图 4 模式串规模不同时的攻击效果（字符集大小为 256, 最短模式长度为 10) 
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training_weekl _ friday _ inside , dat 的全部数据在 
64 MB 左右.对于不同模式串集合，使用本文介绍的 
构造攻击数据的方法构造长度为 1 KB 的攻击数据， 
重复使用这一数据构造长度为64 MB 的文本 
(Worst Text ). 用 WuManber 算法分别匹配这2组 
文本，比较速度变化，其中 6=2, ff =256. 实验结果 
如表2所示.从实验中可以看出在真实环境下，攻击 
数据使 WuManber 算法下降的速度达到50%以上. 

Table 2 Searching Speed Comparison between the Worst Text 
and Real Network Data 


表 2 使用真实数据的攻击效果 


Pattern Set 

MIT 

Worst Text 

Speed 

Speed/MBps 

Speed/MBps 

Reduced/ % 

Snort 

74.702 

23.414 

68. 66 

Clam Anti Virus 

50.605 

22.241 

56. 05 


4.3 影响攻击效果的因素分析 

根据 WuManber 算法的原理，当扫描过程中产 
生的匹配较少时，需要时间较短，反之则较长. 
SPEAR 算法构造的 Worst Text 是使 WuManber 
算法产生最多的匹配，所以影响攻击效果的主要因 
素就是检测 Random Text 匹配次数.综合3组实验 
可以得出，影响攻击效果的主要因素是7,7越大时 
攻击效果越明显，另外当 r 较小、 Z mi „ 较大时，攻击更 
加明显.结合上述的几组实验数据，得出如下4个 
结论： 

结论 1. 在已知的3个因素中，攻击效果受字符 
集大小的影响最大. 

结论 2 . 随着字符集的增大，攻击效果越来越 
好，即攻击造成的 WuManber 算法匹配速度下降得 
越来越 明显； 

结论 3. 随着模式串规模的增大，攻击效果越来 
越差，即攻击造成的 WuManber 算法匹配速度下降 
得越来越不明显. 

结论 4. 当模式串规模较小、模式串长度较大 
时，攻击效果会更加明显. 

5算法复杂度攻击的对策 

5.1 防止模式串信息的泄漏 

SPEAR 算法是在已知全部模式串集合的基础 
上构造攻击数据，使得算法性能快速下降.为了防止 
这种恶意攻击，有效的办法是严密保护模式串集合 
的信息，防止其泄漏. 


更进一步的实验让我们认识到 ：模 式串集合中， 
不同模式串的危害程度是不一样的.也就是说，存在 
一个模式串子集，其上构造的攻击数据与在全部模 
式串集合上构造的攻击数据完全相同，我们称该子 
集为最差模式串子集 (worst pattern subset , WPS )， 显 
然这个子集与匹配算法和模式串集合有关.对于 
WuManber 算法，寻找这个子集并不是一件困难的 
事情 :使用 SPEAR 算法产生一个攻击文本数据，在 
使用此文本数据进行扫描匹配过程中，当 SHIFT 
值为0时标记所有需要验证的模式串，即可以获得 
该模式串集合的最差模式串子集. 

表3记录了在模式串规模不同的情况下，最差 
模式串子集大小的变化情况.可以看出最差模式串 
子集远远小于整个模式串集合. WPS 的存在可以使 
得应用 WuManber 算法的守方注意2 点： 

1) 要注意保管模式串集合特别是 WPS 的信息 
不被泄漏.如果攻击者盗取了一个模式串子集，并且 
这个子集包含了 WPS , 那么攻击者就能构造出使 
WuManber 算法匹配模式串最多的攻击数据. 

2) 当发现有一部分模式串已经泄露出去，则需 
要对系统进行评估，计算可能产生的危害.可以使用 
SPEAR 算法根据泄露出去的模式串集合来构造攻 
击数据，如果攻击效果已经超出了可容忍的范围，则 
需要采取相应的对策. 

Table 3 The Size of Worst Pattern Subset with Different Size 
of Pattern Set 


表 3 模式串规模不同时的最差模式串子集大小 


Size of Pattern Set 

Size of Worst Pattern Subet 

1000 

82 

2 000 

125 

3 000 

17 

4 000 

23 

5 000 

20 


5.2 使用抗攻击算法 

SPEAR 算法是根据 WuManber 算法的特点， 
构造使扫描过程中匹配最多的攻击数据，从而导致 
匹配速度的下降.反之，可以通过改进 WuManber 
算法的若干实现来减少此类攻击到来时的危害，例 
如： 采用较好的散列函数，减小冲突，可以有效减小 
扫描过程中的验证次数. 

作为防御者，可以根据自己 NIDS 的匹配算法 
和模式串集合，找到最差模式串子集，它跟模式串集 
合和匹配算法都有关系.在特定需求下，我们无法 
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改变模式串集合，但是可以通过改变算法，找到这样 
一种匹配算法，使得在模式串集合不变的情况下，增 
大最差模式串子集的大小.这样可以有效地提高 
NIDS 的安全性，在泄露等量的模式串的情况下，减 
小可能对系统带来的危害. 

6总 结 

本文对经典多模式串匹配算法 WuManber 进 
行了复杂度攻击研究，给出了攻击数据构造问题，并 
找到了最优的求解算法.实验结果表明 ：通过 此方法 
构造的攻击数据主要跟 WuManber 算法的字符集 
大小有关，字符集越大，攻击效果越显著，通常可以 
使 WuManber 算法的速度下降80%以上.此外，需 
要注意的是，攻击者不需要获取全部的模式串信息， 
而只需要获知数量很少的最差模式串子集 （ WPS ) 
信息，即可构造岀具有同等攻击效果的攻击数据. 

本文的研究只是模式串匹配算法安全性研究的 
一个初步试探，串匹配算法原理众多，实际使用中也 
有很多不同的实现方式，应用环境也不尽相同，这些 
都和算法的应用是否安全相关.未来的工作可能会 
在如下的方面 展开： 

1) 抗攻击算法的设计.算法的安全性和它的匹 
配效率是相关的，通常是反相关.在设计新算法时， 
要在安全性和速度之间进行有效的取舍.而在实际 
工程应用中，这也许是一个动态的过程. 

2) 算法安全性评估.作为应用算法的工程人 
员，是否可以通过一个有效的评估，得知算法的安全 
性指标，来帮助应用系统决策核心匹配算法的安全 
使用. 

3) 网络环境下的算法安全性.模式串匹配算法 
应用在网络应用中，具有了很多网络特点，例 如：在 
任意网络包负载位置开始匹配，频繁的小网络包等. 
这些是否对其安全性有影响，以及怎样评估和验证 
也是需要解决的. 
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一种面向数据流模型的流计数算法 
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摘要 在研究 数据流过程中，基于现有的概要数据结构 Bloom Filter, 给出改进的 K-Bloom Filter 结构，从理论上对假阳性误判进行分析，得出 
两者具有相同的在误判率/ 0 下表示集合规模的上限因此， K-Bloom Filter 的误判率在可控范围内。提出基于 K-Bloom Filter 的流计数算 
法，与基于 Bloom Filter 的流计数算法相比,在相同的空间复杂度 O(w) 和插入操作时间复杂度 O(zfc) 情况下，该算法降低了统计结果的误差。 

关鍵词数 据流； 布鲁姆过滤器，概要数据结构 

How Counting Algorithm for Data Stream Model 

LIAO Hao 1 * 2 , LIANG Feng 3 , TAN Jiairlong 1 

(1 Institute of Computing Technology , Chinese Academy of Sciences ， Beijing 100190 , China, 

2 Graduate University of Chinese Academy of Sciences , Beijing 100049 , China, 

3. College of Information Engineenng , Xangtan University , ^Gangtan 411105 , China) 


【Abstract】 During the process of studying data stream , this paper proposes the K-Bloom Filter structure which is based on the existing synopsis 
data structure , analyses the false positive misjudgment theoretically , concludes that both can present the upper limits of set scale «ounder the 
same misjudgment rate fo , so the misjudgment rate of K-Bloom Filter is within the controllable range The flow counting algorithm based on the 
K-Bloom Filter structure is gived, under the same space complexity 0( m) and insert time complexity 0( k) , compared to the flow counting 
algorithm based on the Bloom Filter structure , the error of the counting result is lower 


【Kby words】 data stream, Bloom Hlter, synopas data structure 

l 概述 

近年来，随着互联网的发展，越来越多的新型应用对传统 
数据库技术提出了挑战。一个明显的改变就是数据以一个无 
限的值序列的方式源源不断地产生。数据流的处理与实际应 
用密不可分，如股票交易记录 [1] -网络流量、传感器网络中的 
数据 -Web a 志等。其中，骨干网络流量统计是最为典型的 
例子，数据量非常庞大，而且持续速度也很惊人. 2008年，我 
国骨干网络上31个省的总流量大于12 TB / s ， 而且这个速度 
在逐渐增大，因此，对这呰数据进行查询与分析的难度越来越 
大。所以，在一个远小于数据规模的内存空间里不断更新一 
个代表数据集的概要数据结构成为了研究的重点和难点。 

本文在对数据流模型和 Bloom Filter 数据结构探讨的基 
础上，提出了一神基于 K-Bloom Filter 的流卄数算法，该算法 
能在不增加空间复杂度和时间复杂度的情况下，更加精确地 
针对流计数，充分利用； t 个位向量存储的位向量信息，并減少 
k 个哈希函数哈希之后的竞争，大幅度地提高了统计结果的 
准确度。 

2 相关工作 

数据处理是计算机研究领域的一个重要方向。近年来， 
有一类数据密集型应用越来越被人们广泛认知，即数据不是 
以持久稳固的关系形式存在，而是以源源不断、一旦流过就不 
能再被访问 f 或者再被访问的代价很高）的形式存在。这类典 


型的应用包括网络流量监控、网络安全事件检測、电信数据管 
理、金融和证券交易 - Web 访问日志管理与传感器网络等数 
据密集型的生产系统。因此，数据流成为国内外研究的热点。 

目前，数据流的研究方面并不存在像数据库管理系统一 
样成熟的適用的数据流处理平台。但随着应用需求的日益 
扩大，国际、国内对数据流的研究已逐步 展升. 国际上现在很 
多著名的科研机构都升发了自己的数据流管理系统，如理论 
系统包括 STREAM -Aurora Borealis -CAPE HtFI -Nile - 
PIPES 'PSoup 和 TelegraphCQ - 此外 ， Qgascope , 一 个用于 
网络监控的 DSMS ，被用在 A T & T 的路由器上 Aurora 和 
Borealis 系统还衍生了 StrcainBasc 系统公司，它的产品的目 
标是金融交易应用、电信系统监控以及政府和军事的监视任 
务。笔者所在的研究团队也实现了一个数据流管理平台，其 
中的聚集计算部分是本文的平台支撐，同时也是数据流管理 
平台研究的延续。随着数据流研究的深入和技术 的成麫 ，具 
有工业标准的数据流管理系统 (Data Stream Management 
System , DSMS ) 将会很快面世。 

传统数据库技术在20世纪得到了非常成功的发展。但 
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是，在一种名为数据流的模型中，数据持续到达，且速度快视 
模宏大。传统技术由于时间复杂度和空间复杂度高，难以对 
这钟应用模型进行有效处理，亟需新的研究方法来解决。针 
对这种新型应用模型 ，一 种新的思路就是设计高效的单遍数 
据集扫描算法，在一个远小于数据规模的内存空间里不断更 
新一个代表数据集的结构一概要数据结构，从而实时、高效 
地获得近似查询结果。 

常见的构造概要数据结构的方法有直方图方法 
(Histogram) '抽样方法 （ Sa 叫 ling) '小波方法 （ Wavelet ) 、 哈 
希方法 （ Hash) [><] • 而抽样和哈希是目前主要采用的 2 钟技 
术。由于 Internet 上 的网络流量具有动态变化的特性，采样 
对于网络的整体估计精度非常差，因此主要应用于特大流的 
估计。 Estan 等人利用基于字节的简单隨机采样方法和多級 
过滤来统计特大流的信息。基本方法为首先以某种概率采样 
网络数据包，在流记录信息表中记录其信息，并且一旦某个流 
被添加到流记录信息表中，则该流后续的数据包都被强制采 
样。采用哈希技术的特点是存储空间小处理速度快，可以对 
每个报文都进行在线处理，且近似估卄精度高 u 2003 年， 
Estan 使用哈希技术给出了 一组 Bitmap 算法来统计 IP 流的 
数量，这呰算法实现简单，处理速度快. Kumar 等在 2004 年 
提出一神流数量统计的算法一 S CB F ,使用极大似然估计和 
平均值估卄来推測流的大小分布，只使用很少的内存就可以 
处理高速链路上数据 .Bloom Rlt er [>5] 是其中最典型的哈希 
方法。 

3面向数据流模型的流计数算法 


定的情况下, Bloom Hlter 可以最多表示的元素个数 nj 在误 
判率 / o 下表示集合规模的上限为： 

lnfl - - m 

n= ' k 

针对选取 Ji ： 参数的值~，式给出了当集合元素个数《 
和向量空间 ？ W —定时，如何选择合适的哈希函数个数免使得 
Bloom Filter 误判率/最小。 

k= ln2 m (2) 

n 

使用括准 Bloom Filter, 增加一个元素到集合，需要进行 
A ■次哈希运算，其一次元素插入操作的时间复杂度为 0( k } 。 
当判断元素是否在集合中时，同样需要进行 k 次哈希计算，完 
成一次元素查询的时间复杂度为 0( k } » 对于 n 个元素的集 
合，只需要 m 位向量 V ,其空间复杂度为 0(m > 。 使用 Bloom 
Filtei •完成集合存储，只需要为每个元素平均保存/^/«位，十 
分简洁。传统的树型查询算法和哈希查询算法存储空间与元 
素自身大小和集合规模直接相关，而 Bloom Filter 查询算法 
所需空间与元素自身大小无关，仅与元素映射到向量的位数 
相关。 因此，布鲁姆过滤器十分适合于存储空间受限又能允 
许稍许误判的场合。 

3.2 基于 K-Hoom Filter 流计数算法 

K~Bloom Filter 是在 Bloom Filter 结构的基姑上针对流 
数据计数提出的改进的数据结构。其中的尤值指的是 
Bloom Filter 中哈希函数的个数，同时定义尤个位向量 V , 
0 6(1, 幻），当 K-Bloom Filter 进行哈希的时候，对第 z 个哈 
希函数的哈希地址映射到位向量 V :对应的位置为1。假设 


3.1 基于 Hoorn Fflter 的流计数算法 

网络数据流一般使用包头中的字段来定义，应用不同，使 
用的字段也略有区别。最一般的是一个网络数据流被源地址 
IP 、 目的地址 IP 源端口号、目的端口号、协议类型唯一标识。 
基于这种定义的网络数据流计数除了用于网络測量外，对于 
基于状态的网络安全检測系统也有着重要的意义，可以解决 
系统中连接表升多大的问題，以避免“连接表爆炸” ^ 

为了解决上面的问題，使用基于 Bloom Filter 的流计数 
算法，根据图 1 的原理，构建 Bloom Filter 结构，初始化 m 位 
都为0,对新到达的网络包通过 々个哈 希函数映射到位向量 
中的 A : 个位置，并置为1。检查个位置是否都为1,如果都 
为1,认为该流已存在，返回/否则，将 A : 个位置都置为1。当 
进行流计数的时候，将位向量中所有为1的项加起来再除以 
t 即为流计数结果。 



考虑到上面的算法在返回结果时，需要把有效位信息除 
以 A : 用平均值来近似表达流计数数量，而无法取到哈希的最 
均匀的有效信息，这将是影响算法精度的主要因素。 

当集合元素个数为 n 和向量空间为 m 时，给定 Bloom 
Filter 的误判率上限/ 0 ,在过滤器长度和哈希函数个数 A : — 


在 Bloom Filter 中的位向量大小为的话，則 R-Bloom Filter 
中每个位向量大小为 m / k « R-Bloom Filter 结构原理如图 2 
所示。 

k hash function 



图 2 Hoom Rlter 结构原理 


由于基于 Bloom Filter 的流计数算法并不能取到结果最 
好的有效位信息，因此精确度并不是很高，于是采用基于 K - 
Bloom Rlter 结构来提高算法的精确度以解决取不到最佳有 
效位信息的问題。 

标准 Bloom Filter 的误判率为： 

-I kn k 

f BF (m , k, n) = 1 - 1 • w ~ exp ^ In (1 - 

c Mu )) (3) 

而根据推导 R-Bloom Filter 的误判率为/ 

f K ' BF (m t k,n)= 1- 1- ^ ~ exp (k In (1 - 

m 

t Mm )) (A) 

因此，当 m 足够大的情况下时的公式为.- 

f Br (m,k,n) (5) 

恨据上面的分析，式 （ 2) 仍然适用于 R^Bloom Filtei •结 
构，即可以恨据式 （ 5) 使得误判率最小，两者具有一样的在误 
判率 / Q 下表示集合规模的上限(见式» 
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通过上面的理论分析 可知： K-Bloom Filter 的误判率并 
不会比标准 Bloom Filter 低，但是在应用到数据流模型的流 
卄数算法中时，会发现标准的 Bloom Filter 去返回统计结果 
时，需要把有效位信息除以 * •用平均值来近似表达流计数数 
量，无法取到哈希的最均勾的有效信息，而这种影响将是影响 
算法精度的主要因素。下一节将用实验结果来进一步验证。 

当一个新的网络数据包到达时，根据图 3 的 K-Bloom 
Filter 流计数原理，使用上述方法构造的这组 hash 函数 
fxj 散列到 it 个位向量 V f f f f 1, K )) 中，检查每个 V f 
(i €(1, 中散列的位置是否都为1,如果都为1,认为该流 
已存在，返回，.否则，将 ((1, 幻）中的位置都置为1。当 
进行流计数时，将 v , y ; ea , a ) 进行或运算，然后对或运算 
后的位向量 coun t_bit() 统计其中 1 的个数，即可得到流的 
数量。 


k hash function 



图 3 K-Hoom Filter 流计数原理 


算法描述 如下： 

I Input bdatastium 

— Vi [a dr] = Hi (bdaiastieam. key) 

3 c = 0 

4 while (c < K) 

5 if(Vi[adr] = l) 

6 then return 

7 else 

8 V 1 [adr] = l 

9 end if 

10 end while 

II V= Vi| V 2 | -j Vk 

12 sum = count_bit (V) 

13 return sum 

使用 R-Bloom Filter ，插入一个元素操作的是时间复杂度 
也是 0( k > 。 当判断元素是否在集合中时，同样需要进行 A : 次 
哈希计算，完成一次元素查询的时间复杂度也为 o ( k > 。对于 
n 个元素的集合，只需要免个 m / it 位向量 efl , 幻厂其 
空间复杂度仍然为 0 (k ^< m / k ) =0( m ) 。 

针对以往的 Bloom Filter 流计数算法，由于个哈希函 
数在实际情况下互相之间沖突，影响了单个哈希函数的均匀 
性，从而影响到对位向量存储信息的充分表达，因此 K-Bloom 
Filter 结构把一个位向量切分为 ife ■个位向量，消除函数组之间 
的互相竞争，实践中理想的哈希函数可以对某一个或一些特 
定的数据集产生最小的冲突就可以满足实际需要，因为选取 
适当的尤值能更广泛地适应各神数据集，同时又不增加存储 
空间和时间复杂度。 


4 实验结果与分析 

本文对基于 K-Bloom Filter 结构的流计数算法和基于 
Bloom Filter 的流计数算法进行了对比实验，实验測试环境如 
下： CPU 是英特尔酷睿 n E 4600 2. 4 GHz ; 内存是 
DDR 2 667 1 ( B ; 操作系统是 Endows XP home edition 。如 
图4所示，其中 ，/轴 表示实际到达的流的总数， r 轴表示算 
法统计结果的精确度，两者所使用的位向量空间均为 
10 Xk X W ( W 为实际到达的流的总数^)，如在 w = 18 000, Ar 选 
9的情况下 ， w xio X 9=20 225 Byte 。然后，根据式 O ，选取 
7 -Bloom Filter 进行对比实验。 



实际到达的流的总数 
图4 2种算法的比较实验 （k=7) 

从上面的实验结果可以看出 ， K-Bloom Filter 结构能较 
大地提高统卄结果的精确度，进一步減小了统计结果的误差 。 
而算法的空间复杂度和时间复杂度是一样的。 

图4对比试验中的2种算法的空间复杂度都为,插 
入操作时间复杂度都为 oa ) , 而在返回统计量结果的时候 
K-Bloom Filter 只需要返回 m/k 位的位向量中的 count _ 
biUF ), 因此返回统计量结果更快。图5给出算法运行时间 
的对比试验。 
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图5 2种算法运行时间比较实验 （k= 7) 

5结束语 

本文提出了一神 K-Bloom Filter 概要数据结构。 K - 
Blooin Filter 结构把一个位向量切分为个位向量，可以有效 
地消除函数组之间的互相摩擦，充分利用存储空间产生有效 
位信息 u 基于 K-Bloom Filter 的流计数算法不增加存储空 
间，而且统计结果更加精确，时间复杂度也有一定的优势。 
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使得的一组正整数。初始点 X Q e Z ，令 Z = 0。 

(2) 并行： 对每台处理机 z t {1,2,…， p } ，选取一个 
阶矩阵 Ai ，以及 yj €满足式 （5) 及下降性条件（式 (4)) : 

0} ( yi ) <<>\(0) - o \( IIV 0 irO ； II ； (4) 

Ajyj + x 1 6 ^ (5) 

其中，= / (Aayi + ;如果对 V / €/1,2,都有 

v ^ iro ; = 0，則停止；否則，转步蠊 ⑵。 

(3) 同 步：令 B 1 是以 X 1 和 Aiyi + x ,/ = 1,2, 为列的 
n x(p + 1 ) 阵，求满足式⑹和式 （7) 的 z 1 = (zo , z { , •••,☆€ 
R p+l : 

^ ( z ) < tmn ^\( yi ) (6) 

B 1 - 6 X (7) 

其中，平 73 三 ; 令 x * +1 = B i z i ， z = z + 1 ，转步 
骤⑴。 

为了保证算法总是可执行的，需要以下 结论： 

引理 [4] 若如下条件 成立： 

(1) yi = °idi ; 

(2) 4是一个满足梯度相关条件的下降 方向； 

(3) 步长的选取满足 Goldstein 规則； 

⑷ llAl ll ; (8) 

則算法2中的式 (4) 成立。 

3算法的收敛性分析 

在证明算法的全局收敛性之前，先给出以下 假设： 

假设 1 记 A 1 ：= [ A \, A 2, - Mi ； ^ R” X W + V ，存 
在与 z 无关的常数4 > 0使得对任意 x €只” 成立： 
lkA f ； T x II >/3 \\x II ，其中 ，z = 1,2,…。 

假设2对任意 Z ，式⑷中的强制函数列 | / = 04, 
•"} 满足： 对任意 £ > 0，存在与 z 无关的常数 d > 0，使得对 
所有的 !有 •• 

0/ (t) 〈汐 =>f < E (9) 

在假设2下，定义函数 oq — 如下： 

^i(t) =■ inf (10) 

則 AM 也具有强制函数的性质。 

下面给出算法的收敛性 证明： 

定理假设算法2的每一次迭代中，步骤 （2) 和步骤(3> 
的式 (4) 〜式 （7) 都分别满足，在假设1与假设2成立的条件 
下，算法或者终止于式 （1) 的稳定点或者产生一个无穷点列 
{^} ft # { x { } 的每一个聚点是式 (1) 的稳定点。 

证明 ：首先 假设算法有限步终止，即存在，使得对于任 
意/ € {1,2, …, p } 有 V 0 f ⑼= 0，由 V 0 hO >) = 
( PS ) T Vz / fx *; 得： 

( Ai ) T Wf ( j k ) =0 /=1,2,”.,/? (ID 
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[2] Bloom B Space/ Time Tradeoffs in Hash Coding with 
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13(7) 42>426 

[3] Rajolet P , Martin G N Probabilistic Counting[ C]// Proc of 
FOCS’83 Tucson , USA [s n ] , 1983: 76-82 
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由 a 沐： = 浐，…得： 

o < IIta*; T v/rx*; IP < 2 iirAf; T v/rx*; IP = 0 ( 12 ) 

2=1 

又由假设得 V / fx *) = 0 。显然此时 x * 满足界约束问題 
稳定点的条件 m 。 

现假设算法产生一个无穷点列，由算法知 / 6 X , 
既然 f 1 = BV ，由少和的定 义得： 

fU) - f(^ 1 ) = ^iro; - ^ (z l ) 1 = i,2, -\p (i3) 

又由 （4) 得： 

0i (o) > 0 } (yi) +<yi( II v0iro; \\) > 

^>\(yi) +^( llv0iro> \\) i = 1,2, （ 14) 
其中， q 由式⑼给出，由式⑹式 （13) 式 （14) 得： 

fU) - f(^ +l ) >^i( llv0iro; \\) >0 1 = 1,2, ...,p 

(15) 

从而 ifu )} 是非增的。此外，因为/是有下界的，由 
式 (15) 得: 

\im(f(^) - /fV +1 ” = 0 (16) 

所以有 lim II II = 0,/ = 1,2, ：.,p 0 

I-»C» r 

再由假设： 

II v^roi 11 = \\(M) T 11 >/3 11 vf(^) 11 >0 

因此 jij II V / rx 1 ； II = 0 ，則无穷点列的每一个聚 
点是问题 （ l ) 的稳定点 [ 7 ] 。 得证。 

4结束语 

本文提出了 一个求解大规模边界约束优化问題的并行算 
法，并在一定条件下，给出了算法的收敛性分析，该算法向凸 
约束和一般约束的最优化问题的推广是下一步研究的方向。 
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□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□DO 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□ 2D □ □ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ IPDDD 

□ WWW □□□□DNS □□□□□□□□□□□□□□□□□□□□□□□□□ ASQ ISP 口 

□ □□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□ 

1 ) □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □ 

2) □□□□□□□□□□□□□□□□□ TRACERT □□□ IP □□□□□□□□□□ 


□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□ 

3) □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□ 
□ □□□□□□□□□□□ 
□ □□□□□□□□□□□ 
□ □ □ □ □ 

4) □□□□□□□□□ 

□ □□□IP □□□□□□□ 

□ □□□□□□ IP D □ □ □ 
□□□□ IPD □ □ □ □ □ □ 

□ □ IP □□□□□□□□□ 

□ □□□□□□□□□□□ 
□ □□□□□□□□□□□ 

□ 2 □□□□□□□□□□□□ □ □□□□□□□□□ 
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5) □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□[ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□ 

6 ) □□□□□□□□□□□□□□□□□□□□□□□□□□□□_ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□[ 
□ □□□□ ：[?□□□□□□□□□□□□□□□□□□□□□□□□□□□[ 
□□□□□□□□□□ 

3 □□□□ 

3.1 □□□□□□□□□□□□□ 

□ APNIC □ □□□□□□□□□□ 2000 □ □ □ IPD □□□□□□□□ □ 

□ □ tracertQ □□□□□□□□□□□□□□□□□□□□□□□□□□□[ 

□ □□□□□□□□□□□□□□□□□□□□ IPDDDDDDDDDDDI 

□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

m- r 0 D □□□□□□□□□□□□□□ m- r 0 Q □□□□□□ □ c„,u □ □ □[ 

□ r 0 [] □□□□□□□□□□□□□□□□□□□□□□□□[ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□[ 

□ 2口 □ □ 

^-(ro+c m )>m-r 0 

m-N 

m • T o > Cm 


□ □□□□□□□□ 3D □□ 

1m ' (T 0 + Cm) Cm 

^ /- < m < — 

V N-To To 

□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□ 24h 口 □□□□□□□□□□□□□□□ 12h 口 
3.2 □□□□□□□□□ 

□ □ A,B □ □ □ IPQ □ AD BD □ □ □ A-K1-K2-K3-BD Q Q 3 □ □ □ 

□ □□□□□□ UDPQ □□□□□□□□□□□□□□□ ICMPQ □□ □ □ 

□ □□□□□ IP □ □ N3Q □ □ Q □ □ K3Q N3 □□□□□□□□□ 


A - H K1 Nl ^H K2 N2 ^H K3 N3 


□ 3 IP □□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□ IPDDDDDDDDDDDD 

□ □□□□□□□□□□□□□□ ID 


paper, edu.cn 

2004 □ 


□ □□□□□ 

□ □□□□□ 
□ □□□□□ 
□ □□□□□ 


□ □□□□□□ 
]□□□□□□ 
]□□□□□□ 

!□□□□□□ 
]□□□□□□ 
]□□□□□□ 
]□□□□□ w 
]□□□□□□ 


(1) 

(2) 


(3) 

□ □□□□□ 


□ □ B □ □ K3 
]□□□□□□ 


50%U □ □ IP 
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□ □□□ 

□ □ 

□ □ 

□ □ 

□ □ □ □ n>n □ 

2674 

2674 

2674 

□□□□□□□□ 

2674 

2674 

2674 

□ □□□□□□ 

1504(0 □ □ □ □ □ 56%) 

1228(0 □□□□□ 46%) 

1210(0 □ □ □ □ □ 45.3%) 

□ □□□□□ ipnn 

361 

300 

279 

□□□□□□□□ 

237 

205 

188 

□ □ n>n □ 

598 

505 

467 


3.3 □□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□：[?□□□□ 

□ □ □ □ 

D D D « D D D □□□□□□ D ^1 ^ ^ ^«-i 

(1) □□□□□□□ « □ □ □ □ &={ 足.} 口 □□□□□□□□ ki=Xi (0< /□ «)□ 

(2) □ □ &{0 口 ，•□«)□ □□□□□□□□□□□□ 口 k M - kiU ki-ki-iU Si=Si-il) 5,0 k t = (k，i 

+々,_ i )/2 □□口 5', + i =5 ',' + iU ^,+i = (^,+i + ^,)/20 

(3) □□□□□□□□□ 20 □□□□□□□□□□ 2[E 

□□□□□□□□□□□□□□£□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 


□ 2 


□ □ □ □ □ i 

p □□□□□□□ 



□ □ 

N 

IPD □ 


□ □ 

N 

IPD □ 

□ □ 

5 

l 


□ □□ 

1112 

43 

□ □ 

67 

2 


□ □ 

1166 

39 

□ □ 

205 

10 


□ □□ 

2092 

31 

□ □ 

212 

6 


□ □ 

2103 

36 

□ □ 

279 

17 


□ □ 

2514 

26 

□ □ □ □ 

475 

20 


□ □ 

2685 

55 

□ □ 

498 

8 


□ □ 

4846 

21 

□ □ 

558 

12 


□ □ 

6592 

51 

□ □ 

568 

15 


□ □ 

8352 

85 

□ □ 

655 

11 


□ □ 

8899 

44 

□ □ 

656 

6 


□ □ 

8999 

35 

□ □ 

660 

10 


□ □ 

19971 

96 

□ □□□ 

753 

18 


□ □ 

21129 

138 

□ □ 

766 

21 


□ □ 

25316 

104 

□ □ 

1073 

12 


□ □ 

451162 

328 

□ □ 

1107 

25 






□ □□□□□□□□□□□□□□□□□□ Apnic Q whois □□□□□□□□ IP □ □ □ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□ D/24D □□□□ D/24Q □ □ 8Q □ □ IPQ □□□□□□ □□□□□□□□ 

□ □□□□□□□□□ 
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■ 60. □ □ □ □ 2004 □ 


4 □□□□ 

2001 

□ □□□□□□□□□□□ IPD □□□□□□□□□□□□□□□□□ □□□□□□□□□ 

□ □□□ 17 □ □ IPDDDDDDDDD 1612 □ □ □ ip □ □ □ 2940 □□□□□□□□□□ 
IPD □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 90%Q □ □ 

2002 □ ?□□□□□□□□□□□□□ 17 □ □ !?□□□□□□□□□□□□□□□□ 

□ □ 1782 □ □ □ IPD □ □ 2021 □□□□□□□□□□□□□□□□□□ 2801 □ □ □ IPQ 

□ □ 3458 □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□ 34190 □ □ □ □ □ 44750 □□□ !□□□□□□□□□□□□ 

□ □ 4Q □ 5 □ □ □ 




5 □□□□□ 


□ □□□□□□□ Internet □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□ 

2 ) □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□ IPDDDDDDDDDDDDDD ip□ □ □ □ 

□ □□□□ !?□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

3) □ □ BGP □ □ □ AS □□□□□□□□□□□□□□□□□□□□□□□□□□□ 
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□ □□□□□□□□□□□ AS □□□□□□□□□□□□□□□□□□□ ASQ □ ASQ □ 

□ □□□□□□□ AS □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

4) □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□ P2P □ □ □ □ □ 

6 □□□ 


□ □ IntemetdQ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □ □ □ □ 
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□ □ □ □ □ 

□ □ □ □ 1973-DD □ □ □ □ □ 
□ □□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□： 


□ □ □ 1974 - m □□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□[ 
□ □□□□□□□□□ 

□ □ □ 1979-m □□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□ 


□ □ □ □ I960 - □口 □ □ □ □ □ 

□□□□□□□□□□□□□□□ 

- F □□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□： 
□□□□□□□□□□□□□□□ 
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面向多应用系统的监控系统的设计和实现 
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摘要 : 在多 计算机、多应用系统的复杂网络环境下，如何对多个应用系统进行集中监控是很重要的问题。针对 
这种环境，设计并实现了一种兼容各个应用系统的监控系统。系统不但设置一般的监控信息项，而且设置针对应用 
系统、应用程序和计算机等监控对象的特定监控信息项。通过用户动态配置监控对象和监控信息项，使之具有较好 
的通用性，适用于多种监控场合。系统已在某个大型机房中实际运行，大大提高了监控力度和管理效率。 

关键词 ：监控系统； 多应用 系统 ; 数据采集;监控代理 

中图分类号： TP393.07 文献标 志码 ： A 

Design and implementation of monitoring system for multi-application system 

CHEN Yin-peng, GUO Li 

(Research Center for Intelligent Computing and Information Security, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China) 

Abstract: It is an important issue to monitor application systems concentratively in the network with multi-computer and 
multi-application system. A monitoring system for multi -application system was designed and implemented. This system 
included general monitoring items and specific monitoring items for application systems, programs and computers. The system 
had generality by configuring monitoring objects and monitoring items dynamically and could be used for many situations. It 
has been run in some computer room and the monitor and management efficiencies are improved. 

Key words ： monitoring system; multi-application system; data acquisition; monitoring Agent 


o 引言 

在计算机机房中，通常有大量的计算机和多种应用系统， 
对管理者而言，对计算机和应用系统进行统一监控是一件非 
常重要的事情。而一般应用系统都由专门监控系统或者模块 
进行独立监控,一些应用系统本身不提供监控功能,这使得应 
用系统的监控无法集中，管理比较困难。而且，由于应用系统 
在本身提供的监控功能和接口等方面都存在着较大的差别， 
使得应用系统的管理在功能实现上也缺乏一致性，无法进行 
灵活的扩展。 

现有一些产品实现了对网络中系统和设备的集中管理， 
比如 IBM Tivoli S HP Open "View 和 CA Unicenter TNG 等，但这 
些产品都有一些共同点: 1) 系统功能过多，配置 复杂; 2) 多注 
重性能监控、安全防护，不注重对应用系统本身的监控。 

针对这些情况，文章设计了一种基于配置管理的、面向多 
应用系统的监控系统，在很大程度上弥补了以上不足。系统 
集中监控，跨设备、跨平台.，配置简单，功能集中，不但有一般 
的监控功能，而且可以对各个应用系统和应用程序本身监控。 
通过将整个监控网络分解、分类，形成一个个监控类，系统对 
每个监控类单独配置，再通过系统对监控类和监控信息的控 
制管理，以达到灵活配置、统一管理的目的，最终实现使用一 
套监控系统就可以对网络上的所有应用系统进行监控管理。 

1系统功能 

该系统作为一个监控系统，首先实现了监控系统的常用 
功能，包括监视计算机系统资源，例如 CPU 、 内存、硬盘、网络 


流量的状况，监视应用系统的运行状态等。另外，系统还实现 
了远程控制功能，实现对被监控计算机(节点机）的控制。 

其次，实现对各个应用系统数据信息的监控。为了了解 
应用系统的运行状况，需要查看应用系统运行中不同含义的 
数据，这些数据的表述我们称之为监控信息项，各个应用系统 
的这些信息项各不相同，因此监控系统需要分别对每个应用 
系统、应用程序定制监控信息项。 

第三，监控信息项可以配置。系统监控的信息项不是一 
成不变的，用户可以自定义要监控的信息是什么。用户可以 
对应用系统、应用程序、节点机的监控信息项进行定义，根据 
运行的实际情况和用户需求而改变。例如，网络环境中安装 
了一个新的应用系统，新的应用系统有自己特有的信息项需 
要被监控，因此通过配置监控信息项和其他一些数据，就可以 
对新系统监控了。再例如，用户需要增加一种新的监控信息 
项，通过配置监控信息项,再加上采集该信息数据，就可以完 
成对新信息项的监控。 

第四，监控对象可以配置。监控对象是监控系统所要监 
控的对象，主要是应用系统、应用程序和计算机。监控系统中 
的监控对象可以随时调整，比如增加一个应用系统，或者去除 
一些网络中的计算机，通过配置,监控系统可以适应调整后的 
状况。 

2系统总体结构 

系统的总体结构如图1。整个系统分为4个部分 :监控 
终端、监控服务、监控代理和监控信息库。 

监控终端是用户监控所有计算机的界面,监控用户仅仅 
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图 2 配置管理层次 

3.4 监控终端界面设计 

监控终端的主要功能体现在监控信息的显示、系统的控 
制和用户配置的管理上。系统控制和用户配置管理功能通过 
对话框、列表等形式实现。信息显示通过两个方式实现。一 
是按照应用系统显示，界面上画出监控系统中所有应用系统 
的逻辑网络拓扑图，对于异常计算机所属的节点（拓扑图中 
的节点），以红色警肯标识，点击某个节点，则显示该类节点 
包含的所有计算机的详细监控 信息; 二是以列表的形式列出 
所有状态异常的计算机信息和含有数据（非状态数据）的计 
算机信息。两者从不同的角度提供了管理人员监控系统的方 
式，既可以方便的定位异常计算机位置，又可以直接查看所有 
异常计算机。 

3.5 系统模块分解 

系统模块分解如图3。其中的箭头方向表示数据流向。 
整个系统的代码分为三种,分别为监控终端、监控服务和监控 
代理。 


在监控终端上操作：1)用户实时监视计算机运行状态、应用 
程序运行状态、系统数据、应用程序数 据等; 2) 用户向特定用 
户发送控制命令,完成一些控制 操作; 3 ) 用户配置监控信息, 
通过配置，可以方便地修改需要监控的信息。 

监控服务是监控系统的核心：1 ) 它向监控代理发送请求 
信息，请求操作或者获取 信息; 2 ) 向监控终端推送监控 信息; 
3) 响应监控终端的请求并处理。 

监控代理运行于各个节点机上,每个计算机上运行一个 
代理程序,监控代理用于采集计算机运行信息和特定数据信 
息、监视监控服务要求的应用程序，执行一些特殊操作，响应 
监控服务的请求信息等。 

监控信息库存放监控所必须的信息,包括计算机信息、应 
用系统信息、应用程序信息、监控配置信息等。 

监控终端和监控服务构成了一个 C / S 系统，监控终端作 
为客户端，它主动连接监控服务。 



图 i 系统总体结构 


3系统设计 

3.1 安全性设计 

在安全性方面，主要有以下几点考虑:一方面要保证监控 
用户不能进行自己权限之外的操作，而且不能通过网络访问 
其他应用 系统; 另外还要防止数据在传输过程中被窃听。因 
此在技术实现上，采取了以下一些安全 措施： 

1 ) 由于监控用户和系统的接口仅仅是监控终端，因此监 
控终端只和监控服务连接，不能连接应用系统所在的网络，使 
监控用户和应用系统 隔离； 

2) 对监控终端和监控服务传输的内容加密，防止数据被 
窃听； 

3 ) 用户登录进行身份认证，防止无关人员操作 系统； 

4) 对监控用户建立严格的授权机制，对应用系统、监控 
信息、控制操作等详细建立权限号,授权用户只能在自己被授 
权的权限号内进行操作。 

通过以上措施，可以有效地保证应用系统和监控系统的 
安全性。 

3.2 系统数据设计 

监控系统所需要的数据都存放在监控信息库中。系统使 
用 Oracle 建立数据库，通过 ODBC API 对数据库进行访问。 

数据库中主要包括应用系统信息、程序信息、节点机信 
息、监控配置信息、用户信息等。应用系统信息主要包括系统 
名称、版本、开发 商等; 程序信息主要包括所属系统名称、程序 
名称、程序版本、程序类 别等; 节点机信息主要包括其上运行 
的程序、操作系统、 IP 地址、物理位置、网络接 口等; 监控配置 
信息包括所有节点机的通用监控信息项（比如程序是否运 
行、内存大小、网络流量等）和应用系统、程序的特定监控信 
息项 （ fct 如数据库连接状态、数据缓存数量等） 等; 用户信息 
是使用监控终端的人员的信息，主要包括用户名称、所属部 
分、登录口令、权限等。 

3.3 配置管理 

本系统和一般监控系统最重要的区别就是配置管理，通 
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过配置管理，系统才实现了对多种应用系统监控的功能。将 
网络中的监控对象分为应用系统、应用程序和计算机。应用 
程序是应用系统的实际运行实体，计算机是应用程序运行的 
载体。对整个监控网络分层，按照应用系统、应用程序、计算 
机自上而下分为3个配置层，如图2所示。在应用程序层和 
计算机层中，按照程序功能和计算机软硬件的区别，分为不同 
的集合,每一种集合为一个监控类,一个应用系统也是一个监 
控类。对每个监控类单独配置，系统再通过对监控类和监控 
信息的控制管理,达到统一管理、灵活配置的目的。 

系统对应用系统的监控信息项包括应用系统的名称、版 
本、开发商等基本信息和运行中的一些 信息; 对应用程序的监 
控信息项包括程序名、进程名、启动命令、控制命令、版本、运 
行状态、连接状态和其他运行中数据 项等; 对计算机的监控信 
息项包括 CPU 、内存、硬盘的使用状况和网络流量等。所有的 
监控对象按照含有监控信息项的不同，划分为不同的监控类， 
每种监控类的监控信息项是相同的，在用户配置时，就是按照 
监控类进行配置的。 

系统在使用前或者监控网络中监控对象有变化时，都要 
进行配置管理。管理人员划分出监控类，将监控类输人系统 
中，并填写监控类的监控信息项,系统将这些数据都存人数据 
库中。系统运行时，从数据库中读取这些信息和其他必要信 
息，然后进行数据初始化，将这些数据和其他必要信息结合, 
生成每个计算机的监控信息项,再转化为系统监控代理可以 
识别的监控请求信息，从监控代理处采集监控数据。 
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软件设计注意以下 几点： 

1) 为安全性考虑，监控终端和监控服务的通信内容需要 
加密,因此,二者之间的通信模块还应包括加密和解密功能。 

2) 考虑到节点机数量较多，因此监控服务和节点机使用 
UDP 协议 通信; 监控终端和监控服务之间则使用 TCP 协议通 
信。监控终端一旦打开,此监控终端就和监控服务保持一个 
连接，直至监控终端退出。 

3) 在监控服务采集数据时，为了防止 UDP 丢包,判定节 
点机无应答的策 略为: 监控服务周期性轮流采集被监控节点 
机数据,到采集周期时,监控服务将采集信息发送给节点机并 
等待应答，超时后做无应答标记,然后发送给下一个节点机, 
一轮结束后，再逐一探询做了无应答标记的节点机,如此反 
复,连续〃次无应答则判定该节点机真正无应答。 

4) 为了降低系统占用的网络流量,对于刚登录的监控终 
端，监控服务首先要向该终端发送全部的采集信息，之后，向 
该终端发送采集信息时，监控服务只发送改变了的采集信息。 
改变了的采集信息是指当前采集信息相比上次采集信息有变 
化的信息。 

5) 系统需要用多线程处理，线程安全问题十分重要，线 
程间通信、临界区的使用需要充分考虑。 


I I 数据刷新显示 1 1用户管理 I n^¥»i I 命令控阙 I 配置管理11 
I 监控终端 



I 监控数据处理 II 轮循采集处理 II 用户数据处理 II 配置数据处理 I 



I 控制信息处理 1 1间接数据采集11直接数据采集 I 


图 3 系统模块分解图 


4系统实现 

4.1 监控服务的实现 

监控服务作为整个监控系统的处理和控制核心,承担着 
许多重要功能,主要有以下两个 部分： 

1) 数据采集和推送 

如图3所示。首先初始化采集数据。通过读取监控信息 
配置表，得到所有的监控节点机 IP 地址以及每个监控节点机 
的监控信息项，即取得每个节点机需要监控什么信息。 

然后扫描所有节点，即监控服务向每一个监控节点机发 
送监控请求信息，请求消息中包括该节点机的所有监控信息 
项，然后得到应答（采集结果）。对于得不到应答（无法连通） 
的节点机，在等待一段时间后，再次扫描，若连续《次同一节 
点机都无应答，则认为节点机故障。对节点采集完毕后，和缓 
存的上一次采集结果比较，将有变化的节点机信息发送给所 
有的监控终端。 

最后用本次采集结果替代上次采集结果。等待一段时间 
后，进行下次采集。 

由于节点机较多,扫描节点数据（图4中的采集节点数据） 
需要占用较多系统处理时间，因此该过程使用多线程处理。 

2) 响应监控终端的请求 


监控终端有时会主动向监控服务发送请求命令，主要是 
用户命令、控制命令和配置命令。 

首先初始化 Socket , 然后绑定到本机上的一个端口，建立监 
听，等待监控终端的连接。一旦有连接后，启动一个新线程，进行 
数据通信和处理，监听线程继续等待监控终端的连接。 

在数据通信和处理线程中，首先接收消息，然后判断是什 
么通信请求，进行相应的消息处理。若是用户登录操作请求， 
并且该用户拥有监控权限，则向该监控终端发送当前最新的 
所有监控信息。若是监 g 命令，则将数据处理后，发送给对应 
节点机，接收应答，随后 k 回给监控终端。 

对收到的监控终端的数据处理流程如图5 所示。 



配置操作 


用户操作 



L 写配置 - H 写配置处理 I 


修改 H 修改处 in 


图5响应数据处理流程 


4.2 监控终端的实现 

监控终端是监控时用户的操作界面，所有的监控操作均 
在此界面上操作。主要实现以下4个部分： 

1) 监测所有监控对象的状态及常用信息。包括应用程 
序的运行状态、网络状态、连接数据库状态、特定应用系统信 
息等。这些信息由监控服务定时发送给监控终端，监控终端 
即时更新数据并在界面上显示。 

监控终端启动后和监控服务建立一个连接通道,直到监 
控终端退出后这个通道才关闭，监控服务一旦有新的监控信 
息，立即通过此通道将监控信息发送给监控终端，终端收到后 
调用显示刷新模块，刷新界面。 

2) 数据刷新显示。监控终端第一次登录后，首先接收到 
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的是所有的数值信息、状态信息和监控对象的基本信息，存人 
监控信息表中，以后接收到的都是变化的数据（增量数据）， 
收到增量数据后,替换信息表中对应的数据。 

界面上显示的监控信息就是监控表中的信息，按照图形 
和文字两种方式显示。 

图形方式 按照信息表中监控对象的基本信息，可以生 
成监控网络中所有应用系统的逻辑网络拓扑图，对于异常计 
算机所属的节点 （ 拓扑图中的节点）以红色标识,点击某个节 
点，则显示该类节点包含的所有计算机的详细监控信息。 

文字方式 以列表的形式列出所有状态异常的计算机信 
息和含有数据（非状态数据）的计算机信息。 

3) 发送控制信息。用户可以在监控终端上发送特定的 
命令或者一般的命令行到监控服务。用户指定要控制的节点 
机，然后选择控制命令或者输人命令行,监控终端将数据处理 
后，发送给监控服务并接收应答，应答中包括控制命令或者命 
令行执行后的结果，监控终端按一定方式显示给用户。 

4) 维护配置信息。首先监控终端向监控服务发送读取 
配置信息命令,接收应答,应答中包括所有的配置信息，按照 
不同的数据分类显示在不同列表中，用户在界面上可以看到 
所有配置信息。配置信息分为4类，分别是基本信息项、系统 
信息项、程序信息项和节点机信息项。用户可以进行增加、删 
除、修改等操作。操作完成后，即时刷新界面。如果要使修改 
的数据生效，用户必须确认保存，保存时，监控终端将所有配 
置信息以写人配置信息命令方式发送给监控服务。 

4.3 监控代理的实现 

监控代理用于信息采集和控制。监控代理启动后，建露 
Socket 监听线程，一旦收到监控服务连接请求后，立即新开线程, 


进行通信和处理操作，监控线程继续等待监控服务的连接。 

在通信和处理线程中,首先接收消息,然后根据接收到的 
监控信息项进行不同的处理。监控信息项有两类，一类是控 
制信息，另一类是采集信息。采集信息又分为直接采集信息 
(通过读取数据文件获得）和间接采集信息（通过调用函数等 
方法获得）。 

5 结语 

论文介绍了在多计算机、多应用系统环境下，对应用系统 
和计算机进行监控的一种方法,通过该方法开发实现了一个 
监控系统。该监控系统既有一般监控功能，又有针对特定系 
统的特定监控功能，并且便于配置和扩展。该系统已经在某 
个部门的大型机房中运行，系统中含有3个应用系统、几十个 
应用程序、上千台节点机,系统实现了设计的所有功能，有效 
地提高了管理人员和维护人员的监控力度及管理效率。现在 
计划将更多的应用系统纳人此监控系统中。 
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从 wage 程序实验可以看出， PRT 方法不仅不能排除任 
何无效点，而且可能还会引人多余的无 效点; 但 DCPRT 方法 
则不会引人无效点,同时能够有效约减输人域。 
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图 5 wage 程序 DCPRT 方法处理后输人域 
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为提高随机测试效率，本文提出了一种基于双约束传播 
的面向路径自动随机测试的新方法。通过对被测程序源代码 
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随机测试生成。本文还将测试结果与文献 [3] 的测试结果作 
了对比分析，结果表明基于双约束传播的自动随机测试方法 
能得到更加精确的路径输人域,从而具有更好的测试效果。 

双约束传播方法得到输人域并非只能用来进行自动随机 
测试，为了进一步加大软件测试的自动化程度和扩大本方法 
的应用范围，本文的下一步工作是继续研究双约束传播方法 
使之能支持更多数据类型，实现基于路径输人域的边界测试 
用例自动生成,扩大其应用范围和提高自动化程度。 
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Abstract Spam filtering is a great problem nowadays. The conventional spam filtering techniques still 
result in high false positives and false negatives. A novel online spam filter based on URLs and maximum 
entropy model is presented in this paper. The filter identifies spam by classifying the e-mails with the pre¬ 
trained classifier based on the maximum entropy model and filters the spam online in terms of the 
characteristics of SMTP. Experimental results demonstrate that the novel filter can significantly raise the 
filtering accuracy, effectively reduce the false positives, and can be applied to online processing environment 
by reducing the computational cost, compared with the state-of-the-art techniques. 

Key words network security; spam filtering; machine learning; maximum entropy model; URL 
classification 

摘要垃圾邮件过滤是网络安全领域的一个经典难题.在分析了传统垃圾邮件过滤技术不足的基础 
上，提出并使用机器学习领域经典的最大熵模型，对最能体现垃圾邮件特性的 URL 链接进行分类识 
别，实现了 一种新型的基于 URL 分类的在线垃圾邮件过滤技术 （ URL-based spam filtering technique ， 
UBSF). 实验结果表明，该技术具有准确性高、误报率低以及适合实时在线处理的优点. 

关键词 网络 安全； 垃圾邮件 过滤； 机器 学习； 最大熵 模型； URL 分类 
中图法分类号 TP 309 

随着 Internet 的发展，电子邮件在给人们带来 
巨大便利的同时，也诱使有些人将之作为大量散发 
自己信息的工具，最终导致了互联网世界中垃圾邮 
件的泛滥.垃圾邮件问题已经消耗了大量的网络资 
源，并给人们带来了极大的不便 [1] .如何有效地防 
范垃圾邮件已经成为网络信息安全领域的一个经典 
难题. 

目前,反垃圾邮件技术大致可以分成如下 几类： 

收稿日期 :2007-03-05 

基金项 目：国 家自然科学基金项自 （ 60573134); 国家四二 " 信息安全计划 * 金项目 （ 2005CJ9> 


接人控制方法，包括黑名单、白名单、灰名单以及延 
迟 技术； 身份验证方法，包括 DNS MX 查询、反向 
DNS 解析； 内容过滤技术，包括基于规则的 RIPPER 
方法⑴ 、基于统计的贝叶斯方法 [3] 、memory-based 
方法 [4] 、 SVM ( 支持向量机 ) 方法 [5] 等； 以及 2005 年 
最新出现的基于 URL 精确匹配过滤 [6] 、基于 URL 
聚类的过滤方法 [ ~和在开源社区比较著名的开源垃 
圾邮件过滤系统 Spamato 中的 3 种基于 URL 的过滤 
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方法: Razor Filter,Earlgrey Filter 和 Domainator^ 8 '. 

总而言之，传统的反垃圾邮件技术虽然试图从 
各个层面上解决这个问题，但是仍旧存在如下几方 
面的缺陷. 

1) 误报率 (false positive) 高 :无论 是基于黑白名 
单的实时过滤技术，还是对邮件内容进行深层次文 
本挖掘的机器学习技术，都存在较高的误报率. 

2) 处理的数据量过大，实时性能 不髙： 基于邮 
件内容的过滤技术仍是目前应用的主流，而基于内 
容的过滤技术需要采用比较耗时的诸如 Naive 
Bayes,SVM 等机器学习算法，它们往往需要对整个 
邮件体的内容进行学习. 

3) 现有的基于 URL 的垃圾邮件过滤技术尚有 
不足 ：文献 [6] 中所采用的方法主要通过维护一个庞 
大的 URL 数据库，并且需要通过一批有经验的工 
作人员来更新和扩展该数据库，成本和开销太高. 
在文献 [7] 中，作者主要通过类 KNN (K-nearest 
neighbor) 算法对邮件（包括垃圾邮件和合法邮件） 
中的 URL 链接进行归类，然后通过打分判定的方 
法来确定新来的邮件是否为垃圾邮件.然而，该方 
法需要对大量的邮件进行距离计算，计算开销较大， 
在文中给出的实际应用效果并不是 很好; 文献 [8] 中 
的 Razor Filter 采用 whiplash 算法提取邮件中的 
URL 的域名，然后査询 Razor 网络该域名是否已被 
列人黑名单来判定垃圾邮件，采用的是单一 URL 
的判定机制.然而，该过滤器需要维持一个 Razor 网 
络查询系统，并且事先生成的黑名单也可能经常出 
现变化，导致该查询网络的巨大冗余，开销很大，并 
且黑名单机制会造成所有该域名下的 URL 链接都 
被判定为非法的，从而造成很多不必要的误报. 

因而,针对上述情况，本文提出一种新型的基于 
URL 过滤的垃圾邮件方法，通过使用经典的最大熵 
模型,对垃圾邮件中 URL 所表现出的重要特征进 
行基于分类的机器学习，形成垃圾邮件过滤器，从而 
在线过滤垃圾邮件.该方法旨在解决当前垃圾邮件 
过滤技术当中普遍存在的误报率高、实时性能不强 
等问题. 

本文第1节介绍了选择 URL 垃圾邮件过滤策 
略的 理由； 第2节提出了一个基于最大熵模型以及 
URL 分类判定的邮件分 类器; 第3节给出了一个基 
于第2节所述方法的在线垃圾邮件过滤 模型； 第4 
节通过实验证明了本文所述方法的有 效性； 第5节 
总结全文并对未来工作进行展望. 


1基于 URL 的垃圾邮件过滤简介 

通过分析和验证我们认为，统一资源定位符 
URL(uniform resource locator) 是当前垃圾邮件中最 
为稳定出现和起着重要作用的因素，它比传统垃圾 
邮件过滤技术中采用的关键词更为普遍和具有区分 
性，这是 因为： 

1) 首先，在众多的垃圾邮件当中，相关的 URL 
都会分布出现在邮件体当中（邮件体的前面部分、中 
间部分和末尾部分），这样可以起到一个重复地吸引 
用户访问的 目的； 

2) 并且，从处理的计算量以及空间耗费方面来 
说，处理 URL 远比传统的基于内容的垃圾邮件过 
滤方法来说耗费要小得多，它并不需要对整个邮件 
体进行扫描、判定甚至是机器学习工作，而只需要对 
少量的 URL 进行提取、匹配和判定，因而适用于实 
时的在线处理 环境； 

3) 最后，根据对现有的基于 URL 的垃圾邮件 
过滤技术的比较和分析的基础上，我们 发现: 垃圾邮 
件中出现的 URL 和正常邮件中出现的 URL 在路 
径长度、特殊字符的出现频率等方面都有较大的区 
别，因而在判定中以 URL 为依据具有较好的区分 
性.然而，现有的基于 URL 的过滤技术并没有很好 
地使用数学模型利用该特点并应用于垃圾邮件的在 
线过滤中，因此，我们可以采用机器学习的方法将这 
些特点形成分类器对邮件进行分类判定. 

基于以上的分析，我们确定了基于 URL 的垃圾 
邮件过滤策略 （URUased spam filterir^ technique, 
UBSF), 旨在降低处理数据量、增强实时处理能力的 
基础上，提高垃圾邮件过滤的正确率，并降低误报率. 
它主要包括基于最大熵模型 （ME) 和 URL 的邮件分 
类器、基于 URL 的在线垃圾邮件判定几个方面的核 
心内容，下面分别对它们进行详细介绍. 

2基于最大熵模型 ( ME ) 的邮件分类器 

2.1 最大熵模型原理 

最大熵原理以信息熵为基础，其基本思想是给 
定一个经验概率分布(从已知训练样本获得构 
造一个概率分布模型尽可能与经验概率分布 
相接近.但构造这样的概率分布模型的方法很多， 
我们现选择一种使得熵最大的概率分布模型也 
就是说，所求概率分布模型是满足最大熵约束的 
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最优解 [9] . 

为研究方便，引入特征函数 / f , 对于特征函数 
/ f ， 相对于经验概率分布 P m ( x 9 y ) 的期望值为 

〆 （/0 = P * (jc , y ) f(x 9 y ) . (1) 

对于特征函数/，待求槪率分布的期望值为 

p ( fi ) = (工，，)/(工，: y )* ⑵ 

而 / >( i ，： y ) = />(： y )/>( zl ： y ), 令 P (. y ) = 
是: V 在训练集中的观测概率.则限 
定所求模型的概率为在训练样本仔观察到事件的条 
件概率，而不是所有可能事件的概率.若特征函数 
对模型有用，则约束为 

/ >(/) = />*(/). (3) 

若存在 A 个特征 / f(i = l ,2,3, …， *) 则有 * 组 
约束： M /0 = />*(/*•)( i = 1，2,3,…，是 ） .可以将约 
束用集合表示： 

P = \p \ p ( fi ) = />*(/«)» * = 1，2,3,…， A |. 

(4) 

满足上述约束条件的模型很多，我们目标是在 
约束条件下具有均匀分布的概率，若用信息熵为条 
件概率 pUly ) 均匀性的一种数学测》方法，其熵 
的计算公式 如下： 

H (/>) = - ^ p ' ( y ) p(x I y ) logp(x \ y ), 

*^y 

0< H (/») <log I 3 - I , (5) 

那么，满足一组约束/ > 的最优解问题可描述为 

p ' = argmaxH ( p ). (6) 

求解上述问题的最4典方法就是拉格朗日乘数 
法，可求得最优解为 

p ' (x I y ) = ^ ^ exp ( ^ kifi(x , y )), (7) 

其中，参数 / U 是对应特征函数 // 的权重，; r ( y ) 是归 
一化 因子： 

n ( y ) = ^] exp ( X ) Ai / i ( u )). ⑻ 

a I 

如果通过在训练样本上进行学习，就可求得式 
(7) 中的 Ai 值，即可得到所求的概率分布，这样就完 
成了满足最大熵模型的构造. 

在本文所述的基于 URL 分类的垃圾邮件过滤 
任务中，式 （1) 中的 z = | spam , ham 1 ,我们在下面 
将会使用特征选取算法选择4个特征，并构造相应 
的特征函数来建立最大熵模型.那么，本文所讨论 
的 URL 分类问题本质上是一个在约束集合为 P = 
\ p \ p (. fi ) = p '( fi),i = l , 2 , 3 , 4 \ 的前提条件下求 


式 (6) 的最优解问题. 

2.2 特征提取 

在本文中，我们结合垃圾邮件过滤的实际应用 
情况，首次提出了采用最大熵模型首先对 URL 进 
行分类（分为垃圾邮件和正常邮件两类），从而根据 
分类器在线判定垃圾邮件的新方法. 

根据文献 [10] 所述的测试方法，我们最后 
确定选取如下4个重要特征作为邮件分类器的学习 
特征. 

1) URL 路径深度 

它是影响 URL 分类的一个重要因素，对于许 
多 URL 链接，用户可以根据其路径深度来判别垃 
圾邮件或者正常邮件.从结构上来说, URL 满足如 
下形式： scheme : // host / path / document . extension ? query 
# fragment . 对于垃圾邮件来说，其路径相对较长， 
非常复杂，则 URL 中由“/”分隔的子部分较多.例 
如，垃圾邮件中关于网上商品的 URL 层次往往很 
深，目的是方便用户点击直接进入，而不需要用户自 
己寻找. 

2) URL 中是否包含数字字串以及包含数字的 

数量 

许多垃圾邮件的 URL 中都包含有很多数宇字 
串，它们大多被用来表示待宣传的商品的 ID 号信 
息，提供给用户访问，比如，“ www . online - shop , com / 
promotionlist / Detail . aspxCatalog = 17 &Production = 
4859” 链接中就包含了 17 和4859这两个 ID 号来对 
应商品在该网站中的门类和条目信息.而对于正常 
的邮件来说，除非是用户间提供的比较细致的信息， 
否则一般不会有这种情况存在. 

3) URL 中是否含有 “ http :// www ” 字串 

据我们统计发现，垃圾邮件发送者所提供的 
URL 链接的域名标识中大都没有 www 这样一个标 
识因素，原因主要是垃圾邮件发送者需要频繁地通过 
变更 URL 中的域名来达到躲避垃圾邮件过滤器按照 
域名直接封堵的效果，这样不但可以使过滤器失效， 
而且也增大了过滤器维护的难度.然而，如果需要频 
繁变更，他们所申请的 URL 的域名大都是比较便宜、 
相对容易注册的，而以 “ htt P : // www ” 字串为前缀的 
URL 相对比较昂贵，也不容易被注册，因而，该因索 
也可以作为垃圾邮件的识别依据. 

4) URL 中是否包含特殊字符及其出现的数量 

“ http :// u . lele . oom / zt /6/? a = 1148 &b = 19948 &c 
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= 474 &d = 0& e =” 这样的包含大量“? ” 

等特殊字符的 URL 链接在垃圾邮件中比比皆是， 
它们都是为了方便用户对目的网站的直接链接之 
用，也可以作为我们的一个识别依据. 

2.3 基于 UKL 的邮件分类器 


根据上述选取的 URL 分类的特征，我们可以 
使用如下特征函数来对他们进行描述，以方便使用 
ME 方法进行后继的学习及识别 工作： 

对于选择特征1，我们对于类别为/的 URL 给 
出如下的特征 函数： 


f x ( x , y ) = 


j nest ( y ), 

10 , 


x — x , 
otherwise , 


⑼ 


式 (9) 中，表不 URL y 的路径深度 • 

对于选择特征2,我们对于类别为/的 URL 给 


出如下特征 函数: 


y*contno, x'( 工 ， ) _ 

J no ( y ) , if ( x ~ x ) l \ contno ( y ) = true , 
[0, otherwise . 


( 10 ) 


式 (10) 中， m >(； y ) 表示 URL > 中包含的表示 ID 的 


数字串的个数； cowfno (： y ) 表示 URL y 中是否包含 


数宇串. 

对于选择特征3,我们对于类别为 x ' 的 URL 给 
出如下特征 函数： 


邮件一般通过多个 DATA 包进行传送.并且，结合 
URL 在邮件体中的零散分布的特点，我们可以通过 
上述 ME 模型分类 URL 的分类器来在线（在接收邮 
件的 SMTP 服务器端)实时地判定垃圾邮件，并实行 
即时的过滤工作(不等待所有的 DADV 包为本地邮件 
服务器接受).这样，不但可以极大地节省网络带宽以 
及系统的计算资源和邮件服务器的存储资源，并且增 
加了网关处理邮件的吞吐率，这也正是本方法能够应 
用在网络环境下在线实时处理的一个最大的优势.具 
体的在线垃圾邮件过滤模型如图1 所示： 



图1基于 URL 的在线垃圾邮件过滤模型示意图 


f conXtx ' (工 ， y ) - 

1 , if (x = x ') A cont(w , y ) = true , 

0 , otherwise , 

式 (11) 中表示 URL y 中是否包括字符 
串 w . 

对于选择特征4,我们对于类别为 /的 URL 给 
出如下特征 函数： 

-/cont.w^x' (工， y ) 

num (w , y ) , if(x = x ') !\ cont (w , y ) = true , 
0 , otherwise , 

( 12 ) 

式 （12) 中 ， cont ( w , y ) 表示 URL y 中是否包括字符 
串 w ， num ( ui ， y ) 表示 URL y 中包含的字符串 w 
的个数. 


该模型包含如下几个组件. 

1 ) 邮件解码 器:该 组件主要用来对到来的邮件 
进行解码，包括 Base 64, quoted - printable , Unicode 等 
邮件编码格式的 解码； 

2 ) 邮件处 理器： 该组件对解码后的邮件进行 
URL 的 提取； 

3) 最大熵模型分 类器： 该组件提取邮件中的 
URL 构造出分类器，以供 Spam 识别器在线垃圾邮 
件过滤时 使用； 

4) Spam 识 别器： 该组件采用离线构建好的基 
于最大熵模型的分类器对提取的 URL 进行分类， 
从而识别垃圾邮件； 

5) 日志 库：用 来记录 Spam 识别器判定垃圾邮 
件的日志，以便于系统正确性和有效性的验证工作. 


3在线垃圾邮件过滤模型 

通过对 SMTP 协议传输特性的分析 [1|] ，我们 
发现： 该协议命令包（如 “MAIL FROM”，“RCPT 
TO ” 等）和数据包 (“ DATA ” 包）分别传输，并且一封 


4实验结果与分析 

为了验证 UBSF 方法的有效性，我们首先将该 
方法的核心——基于 ME 模型的分类器与经典的* 
于内容过滤的 NaVve Bayes 方法和 SVM 方法在收集 
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的实际邮件集上的过滤效果进行了 比较; 另外，为了 
验证其在实际网络环境下的可用性以及高效性，我 
们开发了一个基于 UBSF 的原型系统，下面分别对 
它们加以介绍. 

4.1 对比实验 

为了验证基于 ME 模型的分类器的效果，我们 
收集了一段时间内的实际邮件共4837封，其中垃圾 
邮件2087封，正常邮件2750封.我们将其分为训 
练集和测试集两个集合.并且，我们采用交叉验证 
( cross - validation ) 的方法，每次将邮件分为10份，选 
取其中的9份作为训练邮件集，将剩余的1份作为 
测试邮件集，重复实验10次,取实验结果的均值进 
行比较.在实验的结果中，我们将采用目前国际上 
较为流行的 Precision 以及 Recall 两个指标来衡量 
. UBSF 的有效性.表1给出了详细的实验结果. 


表 1 

对比实验结果 

% 

分类器参数 

Precision 

Recall 

Naive Bayes (keywords) 

95.18 

92.83 

Naive Bayes (URLs) 

95.87 

93.25 

SVM ( keywords) 

96.79 

94.33 

SVM (URLs) 

97.08 

95.72 

ME model (keywords) 

99.68 

98.38 

ME model (URLs) 

99.70 

98.92 


通过表1我们不难看出， ME 模型在邮件过滤 
方面比 Naive Bayes 方法有较高的准确率，与 SVM 
方法相差不大.另外，实验显示，采用基于 URL 的 
邮件过滤策略的准确率与基于关键词过滤方法相比 
也有略微的提髙，但是相差也不是很明显.然而，采 
用基于 URL 的过滤方法并不需要保存待判定邮件 
才能进行计算，而关键词为代表的传统内容过滤方 
法则需要对整个邮件进行保存和计算.前者显然在 
计算量和存储开销上相对后者来说要小得多，这也 
正是本文所述方法的优越性所在. 

4.2 原型系统实验 

为了验证 UBSF 方法在实际应用中的效果，我们 
在 Linux Advanced Server 2.4.18 下基于 Sendmail 
8.36.8.3 邮件服务器开发了一个采用 UBSF 方法的 
垃圾邮件过滤的原型系统，并部署该原型系统在我 
们的测试邮件网关上对进出的邮件进行垃圾邮件过 
滤.通过用户反馈及数据分析得到如表2所示实验 
数据： 


表 2 基于 UBSF 的垃圾邮件过濾原型系统测试结果 


实验参数 

测试结果 

处理邮件总数 

31500 封 

正常邮件 

19010 封 

垃圾邮件 

12490 封 

误报邮件数 

108 封 

漏报邮件数 

213 封 

Spam Precision (%) 

99.1 

Spam Recall ( % ) 

98.3 

平均每封邮件处理的数据包 
个数 ( 不包括命令包） 

2 个 


5结束语 

本文提出了一种基于 URL 的垃圾邮件过滤方 
法，其采用最大熵模型对邮件中提取的 URL 特征 
进行分类学习，并能够依据 SMTP 协议的传输特 
性，使用分类器对垃圾邮件进行在线过滤，其与传统 
的垃圾邮件过滤方法相比具有正确率髙、误报率低 
以及处理开销较小的优点，能够较好地应用于网络 
环境下的垃圾邮件实时判定及封堵.并且，我们通 
过对比实验以及系统原型实验进行了验证，实验结 
果证明该方法确实简单有效. 

但是，实验的过程中也发现了一些 问题: 如何能 
快速有效地在线过滤少量的不含 URL 的垃圾邮件 
(比如仅携带有可执行恶意代码的附件的垃圾邮 
件），以及如何将该方法与其他诸如 DNS 实时黑名 
单等技术有机融合，提高当前垃圾邮件过滤系统的 
可用性是我们下一步研究的重点. 
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摘要 __ 当实现一个新的 NIDS 检测算法时，很难获得一个实用的签名库及其测试数据。该文介绍了怎样利用 Snort 的签名库，以及怎样 
生成相应的测试数据，最后给出了一些测试数据。 

关 键词 ： NIDS 签名； 测试数据 生成； Snort 

NIDS Signatures Acquisition and Test Data Generation 

WANG Ying 1 ， 2 , TAN Jianlong 1 , SHEN Xingxing 1 ’ 2 , LIU Ping 1 

(1. Software Lab, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080; 

2. Graduate School, Chinese Academy of Sciences, Beijing 100039) 

[AbstractI It’s hard to acquire a practical signature library and its test data when user implements a new intrusion detecting algorithm. This paper 
introduces how to exploit Snort TM, s signature library and how to generate corresponding test data. It also gives some experiment results. 
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i 动机 

随着我国网络通信基础设施的飞速发展，越来越多的单 
位自组以太网通过路由器接入主千通信网。这种组网方式因 
其数据传输速率高、易于扩充且较低费用因而广受欢迎。但 
这种组网方式在带来信息资源共享便利的同时，由于其自身 
传输媒体的共享和开放性，带来了严重的安全隐患，导致最 
近几年各种计算机病毒、蠕虫和黑客袭击等入侵行为大行其 
道，因此网络入侵检测系统 (Network Intrusion Detection 
System, NIDS) 成为信息安全领域的一个重要研究方向。 NIDS 
进行安全防范的基本思想是将若干入侵检测主机分布到子网 
内部，对网络交通进行分析和检测，分析和检测的主要方法 
是模式匹配。这里“模式”是指，网络数据包的头部信息或 
者载荷中的数据满足的特定条件，网络安全领域把能够判定 
一个入侵的一组特征条件成为“签名 (Signature)” 。 

国内外许多科研机构在进行新的 NIDS 检测算法的研究。 
我们在开始实现一个新的 NIDS 检测算法时，一个很大的困 
难在于如何获得签名库。因为签名不是机器自动生成的，需 
要人们手工收集并加以特征提取，是一个长期的、繁琐而且 
需要不断更新的任务，一般科研机构不能承担。商业 NIDS 
通常都不公开自己的签名库，但开放源代码的 Snort 的签名 
库是公开的，并且它的签名描述语言非常简明，易于程序解 
析，我们在构造一个 NIDS 检测算法时，完全可以利用 Snort 
的签名库。 

在我们利用 Snort 签名库构造完成一个初步的 NIDS 后， 
为了测试其功能和性能，最理想的测试数据是真实环境下搜 
集到的各种网络入侵事件的数据。和收集签名一样，要收集 
基本上覆盖当前常见入侵事件的真实数据是非常困难的 [1] 。 
但是换一个思路，其实可以从签名着手，用程序构造网络数 
据，使其满足签名定义的规则，以模拟真实入侵数据。只要 
确保模拟数据能使签名真值为真，并且用 Snort 系统加以验 
证，这样的模拟数据就可以用来验证我们的构造在 Snort 签 


名库上的检测算法的功能和性能。采用模拟入侵数据的另一 
个好处是，在生成模拟数据时，可以使用虚拟的网络地址， 
这样就可以避免对真实系统的损害。 

Snort 是一个成熟的、被广泛使用的、开放源代码的网络 
入侵检测系统，它的有效性已经得到时间的验证。它具有一 
个可配置的签名库(因为它的每一个签名对应于一条规则，也 
把它的签名库称为规则库)，最新版本的 Snort 规则库包含了 
约2 300条常见网络入侵的检测规则。 

要利用 Snort 规则构造 NIDS 检测算法和生成测试数据， 
关键在于 Snort 规则的解析。二者解析 Snort 规则的任务完全 
一样，只是构造检测算法时，在解析 Snort 规则以后，生成 
的是检测算法特有的签名表示 方法； 而生成测试数据时，在 
解析 Snort 规则后，生成的是满足规则的网络数据。 

2 Snort 规则解析和模拟入侵数据生成 

Snort 规则库是一系列的文本文件，其中包括几十个规 
则文件 (.rules 文件)和几个配置文件 (xonf 文件)。 Snort 规则库 
中大致按照应用层协议对网络入侵进行了分类，每个分类对 
应于一个规则文件。每个规则文件由规则和注释组成，每条 
规则独占一行。一般来说，每条规则对应于一种网络入侵， 
当一条规则的条件满足时，则表示检测出对应的网络入侵， 
因此所有的规则之间实际上是逻辑“或”的关系。 Snort 规则 
描述语言也提供了在一条规则满足的条件下触发另一条规则 
的检测的机制，但目前的规则库中并不包含这样的规则。 

Snort 规则使用一种简单的、轻量级的规则描述语言， 
Snort 规则描述语言虽然简单，但足够灵活，具有很强的表达 
能力 [2] 。每条 Snort 规则逻辑上分为两 部分： 规则头和规则选 
项。规则头具有固定个数的域，包括规则满足时的动作、检 
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测协议、源目的 IP 地址及掩码、源目的端口。规则选项部分 
是不定长的，每个规则选项以“选 项名： 选项值”的形式定 
义，相邻规则选项之间以分号分隔。其中选项名为一个标识 
符，选项值可以是指定的简单取值，也可能是 Snort 自定义 
的表达式，表达式取值可能是字符串、数值型或者逻辑值。 
常用的规则选项包括各种规则判断条件、规则满足时的警告 
信息、规则编号及规则版本号等辅助信息。规则判断条件之 
间是逻辑“与”的关系，即只有当所有规则选项都满足时才 
触发规则动作。一条典型的 Snort 规则如下： 

alert tcp any any -> 192.168.1.0/24 111 (content:” 100 01 85 a5l ”； 
msg:’’mounted access ’’;） 

其 i 中左括号以前为规则头，左括号和右括号之间为规则选项。 
这条规则表达的含 义是： 一个 TCP 数据报，无论从哪个 IP 
地址的哪个端口，只要是发往 192.168.1.0 子网(网络号24位) 
中主机的111端口，并且含有二进制串“10001 85 a 5 l ，’， 则触 
发报警，报警信息为 “mounted access ”。 Snort 规则还支持： 

(1) 变量。可以在配置文件 ( xonf 文件)中定义变量，然后 
在所有的规则文件中引用变量。 

(2) 常量。很多规则选项取值可以用众所周知的名字代替 
它本身的取值。 

(3) 通配符。例如可以用 any 指定任意 IP 地址或者任意端 
口号。 

(4) 各种运算符。规则选项中指定选项值(逻辑值、数值或 
者字符串)时可以使用各运算符。 

正是因为这些支持才使得 Snort 规则描述语言非常灵活， 
但解析 Snort 规则却变得比较复杂。 

为了生成满足 Snort 规则的数据包，首先必须解析 Snort 
规则。在解析规则之前，必须加载规则中变量定义。配置文 

件中用如下语法定义一个 变量： 

var VAR_NAME VAR_VALUE 

扫描配置文件，在内存中生成“变量名->变量值”的查 
找表。 Snort 规则支持用变量定义变量，即 VAR _ VALUE 中 
可以出现已定义的变量。 Snort 规则中用 $ VAR _ NAME 来引用 
变量，因此，在建立“变量名->变量值”查找表时，如果发 
现变量值中含有已定义变量 $ VAR _ NAME , 需要递规地用 
VAR . NAME 查找已经建立的查找子表，用 VAR . NAME 的值 
替换 $ VAR _ NAME 。 在解析规则时，如果遇 a $ VAR_NAME 
形式的变量，用 VAR . NAME 作为查找键在“变量名->变量 
值”查找表中搜索，然后用变量值替换变量$ VAR _ NAME 。 

然后扫描 Snort 规则库中的毎一个规则文件，一次扫描 
一行，如果是注释行，直接跳过，如果是规则定义，则调用 
规则解析程序。 Snort 规则解析程序实际上就是一个自动机， 
按照 Snort 规则语法构造这个自动机，自动机每次从规则中 
读入一个记号 ( token ), 然后根据当前状态和输入记号的类型 
决定下一个状态。在进入自动机之前，需要初始化一个表示 
网络入侵的数据结构，在自动机运行过程中填充这个结构。 
这个网络入侵表示结构大部分域都和 Snort 规则的头部属性 
或者规则选项一一对应，主要有数据发送协议、源目的 IP 地 
址和端口、入侵数据传输方向、 IP 头各个域、 TCP 头各个域、 
UDP 头各个域、 ICMP 头各个域，还有几个辅助属性，如规 
则包含的报警信息、需要采取的动作等。这个数据结构还有 
一个非常重要的域，就是对应于网络数据包载荷的一个缓冲 
区，我们将在自动机运行过程中将和载荷内容检测有关的模 
拟数据填充到这个缓冲区。 

解析 Snort 规则的自动机相当简单，它只有扫描规则头 


部、扫描规则选项属性名、扫描规则选项属性值几个状态， 
遇到行尾自动机退出。每当自动机扫描过一个规则头部属性, 
或者一个(规则属性名，规则属性值)对时，就需要生成一个 
满足规则选项的值，然后填充（或者修改）网络入侵表示结 
构中的一个域。为了更好地模拟真实网络环境，模拟的数据 
必须具有一定的随机性，因此填充或修改网络入侵表示结构 
的原 则是： 

(1) 如果规则中没有指定属 性值： 1) 如果对应域有默认值， 
则取默认值； 2) 没有默认值，则取一个随机值； 

(2) 如果指定属性值，则在满足属性值的条件下取一个随 
机值。 

因为 Snort 规则允许规则选项中同一个属性项出现多次， 
所以在填充属性值时，可能会修改已填充的属性值，此时新 
修改的值不能和前面定义的规则选项中指定的属性值冲突。 

自动机在扫描规则头属性和规则选项属性时，必须对属 
性值进行解析。 Snort 规则中属性值的格式比较繁杂：支持各 
种通配符和操 作符； 针对各个不同属性，属性值的格式可能 
相差 很大； 属性值中还有大量 Snort 自定义的属性描述关键 
词。需要解析的属性值主要可以分为如下 几类： 

(1) 数值型。支持范围表示，例如“>=10”表示属性取值大 
于等于10; 

(2) IP 地址型。使用 CIDR(Classless Inter-Domain Routing ) 
表示法，即“网络号/掩码”表示法。支持通配符。 

(3) 逻辑型。一般都是 Snort 定义的单个关键词，表示属 
性值满足某个逻辑关系。 

(4) 字符串型。支持文本串和二进制值串两种方式。 

此外，上面所有的类型都支持在前面加上“非”操作， 

表示属性取值不属于属性值指定的 范围； 还支持“或”操作， 
多个值可以用逗号连接，表示取其中任意值都满足条件。 

Snort 规则中最重要、配置最为灵活的是关于网络数据包 
载荷数据内容部分的属性项。 Snort 规则中有两种关于载荷内 
容的属 性项： 一种是关键词 检测； 另一种是对于载荷某个位 
置若干字节二进制值的测试 ( Snort 术语 byte _ test )。 

关键词检测能够指定载荷中必须出现（或不出现）某个 
关键词。 Snort 规则的关键词选项中可以用两条竖线“ I ”中的 
十六进制字符串来表示二进制字节串，将含有这种二进制串 
的关键词解码为原始的二进制字节序列。 Snort 规则还提供了 
其它一些属性项，以限定关键词的一些属性，例如，关键词 
是否大小写敏感、在载荷中开始扫描关键词的偏移、关键词 
和前一个内容检测结果的相对位置等。在往表示网络入侵的 
结构中的载荷缓冲区中填写关键词时，必须满足所有的这些 
属性条件。另外，当涉及到应用层协议时，在载荷中还必须 
构造相应的应用层协议信息。例如，当应用层协议为 HTTP 
时，可能需要检测 URI 域中是否含有特定关键词。 

而 byte _ t eS t 测试检测载荷中若干相邻的字节所表示的二 
进制值是否满足规则中给出的关系表达式，关系表达式中给 
出了比较操作符和右操作数，这里得到的二进制值作为左操 
作数。 byte . test 在将多个字节组装成一个二进制值时，规则 
还可以指定网络包载荷的原始内容是二进制值还是字符串形 
式的十进 制值； 如果是二进制值还指定了字节顺序，那么必 
须按照这些转换规则，生成数据报载荷中的原始字节序列。 
byte . test 选项也可以指定当前测试的字节序列在载荷中的绝 
对位置或者和前一个内容测试结果的相对位置。然后把生成 
的字节序列填充到表示网络入侵的结构中的载荷缓冲区中的 
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相应位置。 

根据前述网络入侵表示结构的填充原则，在既不含关键 
词，也不含 byte _ te S t 的载荷区域，填入随机的字节值。 

3模拟入侵数据的发送 

在解析完一条规则后，得到了一个满足 Snort 规则的网 
络入侵表示结构，然后利用 Libnet 构造相应的网络数据包并 
从以太网卡接口发送出去。 Libnet 是一个用来构建和发送网 
络数据包的开放源代码软件包，它提供了一套应用程序开发 
接口 ( API ), 允许开发人员以独立于操作系统 TCP / IP 协议栈 
的方式构造用户定制的各种协议数据包，然后直接操作网络 
数据链路层，以链路层数据帧发送数据到网卡接口 [3] 。利用 
Libnet 构造网络数据包时，必须按照协议层次结构，从上往 
下依次构造， Libnet 在每个协议层次上分别为毎种协议数据 
包的构造提供了 API 。 例如，如果想利用 Libnet 发送一个 UDP 
数据包，首先调用 libnet _ build _ udp () 构造一个 UDP 数据报， 
并将用户数据填充到 UDP 数据包的载荷 部分； 然后调用 
libnet _ build _ ipv 4() 往 UDP 数据包前添加 IP 分组 首部； 调用 
libnet _ build _ ethernet () 在 IP 分组首部前添加以太网帧头以及 
在帧尾添加校验和；调用 libnet _ write () 将以太网帧从指定网 
卡接口发送出去。 

如果网络入侵的协议属于 UDP 、 ICMP 或者没有指定传 
输层协议的 IP , 每个入侵对应于一个数据包，按照类似于上 
述 UDP 数据包的发送过程发送入侵。对于有连接的 TCP 协 
议，情况要复杂一些。首先，在发送包含入侵数据的数据包 
之前，必须构造和发送模拟建立 TCP 连接的3次握手数据包 
( SYN ， SYN / ACK ); 在发送包含入侵数据的数据包之后，还必 
须构造和发送断开 TCP 连接的数据包 ( FIN )。 其次，一个 TCP 
连接存在两个方向上的数据，而 Snort 规则是区分两个方向 
上的数据的，网络入侵表示结构中指定了入侵数据包是从客 
户端(主动发起 TCP 连接方)发往服务器端(被动接受 TCP 连 
接方)，或者相反，因此必须在正确的方向上发送入侵 数据； 
再次，模拟 TCP 连接的一系列 TCP 数据报头部的序列号、 
确认序列号以及 IP 头部的序列号都是相关的，必须满足 
TCP / IP 协议要求。 

通过上述方法，我们在以太网上模拟了一次入侵数据的 
发送，如果以太网是非交换的媒体共享网络，那么同一个以 
太网上的 NIDS 一定能捕获这个模拟入侵数据包(或者 TCP 
流)。只要待检测的 NIDS 采用的签名和 Snort 一样，那么这 
个 NIDS 就应该能检测出这个入侵。 

然而，在测试 NIDS 时，更一般的做法是，入侵数据包 
均匀地分布在不含入侵数据的背景网络交通当中。此时，借 
助另一个开放源代码的网络数据捕获和发送工具 Libpcap 。 
Libpcap 提供了一套 API , 能从非交换共享媒体以太网上捕获 
所有的以太网帧，并将捕获数据保存在 tcpdump 格式文 件中； 
与此相反, Libpcap 也能将一个 tcpdump 格式文件中的每个以 
太网帧从网卡接口顺序发送出去 [4] 。因此，可以利用 Libpcap 
在一个健康的真实网络上将一段时间的网络交通捕获到 
tcpdump 格式文件。在测试 NIDS 时，在一台机器上用 Libpcap 
将这个捕获的 tcpdump 格式文件作为背景交通重放，在另一 
台机器上发送模拟入侵数据，这样在程序中可以完全控制背 
景交通和入侵数据包的发送速率以及入侵数据在背景交通中 
的分布。 


还有一种情况，有时候为了测试 NIDS 处理在高密度入 
侵下的性能，这时需要以很高的速率将模拟入侵数据发送到 
网卡，但由于每发送一次入侵都需要进行 Snort 规则解析、 
各层协议数据包的生成，上述模拟入侵数据的发送速率往往 
达不到测试要求。求助于 Libpcap , 首先利用 Libpcap 将发送 
的模拟入侵数据都捕获下来存到 tcpdump 格式文件，在实际 
测试 NIDS 时，再利用 Libpcap 从 tcpdump 格式文件将模拟 
入侵数据重放。这样，入侵数据的发送速度基本上只受限于 
以太网的物理传输速度，而达到的效果却和直接解析 Snort 
规则发送一样。 

4测试和结论 

为了验证上述方法生成的模拟攻击数据的有效性，使用 
生成的模拟入侵数据对 Snort V 2.2.0 网络入侵检测系统在不 
同入侵压力下进行了检出率测试。检出率定义为，实际被检 
测出的入侵个数和实际发送的入侵个数的比值。这里的测试 
网络环 境是： 100 Mbps 的以太网，背景交通的发送速率为 
20 Mbps ;运行 Snort 系统的硬件配置：处理器 AMD Opteron 
1.4 GHz , 内存 4 GB 。 测试结果如表1所示。 


表1不同模拟入侵数据发送速率下 Snort 2.2.0 的检出率 


入侵发送速率 
(Mb/s) 

1.21 

2.82 

6.36 

10.85 

38.23 

69.97 

检岀率 

100% 

100% 

74% 

56% 

34% 

22% 


测试结果表明，在较低的压力下， Snort 能够精确检测出 
每个模拟入侵数据，因而生成的模拟入侵数据是可信的•，在 
逐渐增大的压力下，由于 Snort 的处理能力逐渐饱和，检出 
率下降。 

中国科学院计算技术研究所软件研究室实现了一个基于 
数据流管理系统 (Data Stream Management System ) 的 NIDS 系 
统，并采用 Snort 的签名库，然后利用前述模拟入侵数据测 
试这个 NIDS 的功能和性能。结果表明，采用 Snort 签名库以 
及对应的模拟入侵数据，能够很好地测试我们关于 NIDS 的 
一些新的想法和算法。 

总的来说，当我们想实现一个基于签名的 NIDS 却又很 
难获得更好的签名时，可以利用 Snort 的签名库，同时使用 
前述方法生成模拟入侵数据检测这个 NIDS 的功能和性能。 
当然，商业使用的 NIDS 一般都有自己特有的签名库，不能 
用 Snort 的签名库生成的模拟入侵数据去检测基于非 Snort 
签名的 NIDS 的功能和性能，但同样可以借鉴本文所阐述的 
方法，测试基于特定签名库的 NIDS 入侵检测算法的功能和 
性能。 
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摘要 虽然目前垃圾邮件过滤或检测的研究比较多，但是它们大多数是基于邮件客户端。文章提出了一种基于后缀树 
的骨干网络垃圾邮件检测方法，它采用后缀树文本表示方法，通过不定长统计方法判定邮件是否相似，然后利用邮件重 
复出现的次教判定是否为垃圾邮件。该方法不需要任何训练，直接对接收的邮件进行分类 统计； 对于长度为的邮件，算法 
的时间复杂度和空间复杂度 均为； 另外，该方法独立于任何语种。 
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Abatract : Although there are a lot of studies for filtering and detecting spam,most of them are for E-mail clients.In 
this paper,we propose a new spam detection method on backbone network based on suffix tree.lt represents the text of 
E-mail with suffix tree structure, and uses the variable length string matching method to decide the similarity between 
mails,then uses the count of similar mails to determine whether mails are junk mails or not.This method didn’t require 
any training corpus,and directly classifying and counting accepted mails.lt took time and space to detect the mail of 
length.Besides, this method is independent of language. 
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随着电子邮件使用范围的扩大，电子邮件在带来更大方便 
的同时，也带来了一些负面影响，垃圾邮件就是其中之一。迄今 
为止，垃圾邮件 （ Spam、Junk E-mail ) 在国际上没有统一的定 
义。《中国互联网协会反垃圾邮件规范》认为垃圾邮件包括收件 
人事先没有提出要求或者同意接收的广告、电子刊物、各种形 
式的宣传 邮件 ; 收件人无法拒收的电子 邮件； 隐藏发件人身份、 
地址、标题等信息的电子 邮件 ; 含有虚假的信息源、发件人、路 
由等信息的电子邮件 o 我们把除垃圾邮件以外的电子邮件称为 
合法邮件。实际上 ，垃圾 邮件的判定因人而异，不同用户对同一 
邮件的判定结果可能存在差异。 

全球范围统计， 2004 年丨月，垃圾邮件占电子邮件总量 
60%;2005 年，《第十五次中国互联网络发展状况统计报告》显 
示，我国网民平均每周收到合法邮件 4.4 封，收到垃圾邮件 7.9 
封，垃圾邮件占邮件总量的比率仍然相当高。垃圾邮件的危害 
主要表 现为： 占闻网络带宽，浪费网络资源，干扰邮件系统的正 
常 运行； 浪费用户的宝贵时间和上网 费用； 对网络安全构成威 
胁，特别是利用他人的服务器转发邮件的情况。 

1垃圾邮件的检测方法 

垃圾邮件的检测方法分类标准比较多，如按照邮件特征分 


类 ( 基于内容的检测、基于规则的检测等方法） 。在此 ，我们按照 
电子邮件传送过程中的角色 ( 层面)把垃圾邮件的检测方法分 
为下面 4 类； 

(1 )MUA 层 检测： 指在用户端对邮件迸行检测。 

(2) MDA 层检 测：指 MDA 从 MTA 中接收到信件，在本地 
或远程递交时进行检测 ^ 

(3) MTA 层检 测：指 MTA 在会话过程中对会话数据进行 
检测。 

(4) 路由器（骨干网）层 检测： 指在接收或发送邮件的路由 
器或在骨千网上对邮件进行检测。 

其中 ,MDA 层检测和 MTA 层检测都属于邮件服务器端的 
检测，而 MUA 层检测则是属于邮件客户端的检测。 

1.1 骨干网上的检测 

尽管目前存在很多垃圾邮件检测的研究，但大多数研究是 
用于邮件客户端，而用于骨千网络或路由器上的垃圾邮件检测 
的研究却比较少。下面我们从骨干网络本身的特点来说明基于 
骨干网络的垃圾邮件检测技术应该具有的几个特点。 

信息量大 :从骨 干网络获取的邮件信息远远大于从客户端 
获取的邮件 信息; 客户端仅仅能够获取到达该客户端的邮件信 
息，而骨干网络能够获取通过该网络的所有邮件信息。 


作者 茼介 : 郑耀东（ 1979-) ，男，硕士研究生，主要研究方向为网络信息安全。谭建龙 (1974-) ，男，博士，助理研究员，主要研究方向为数据流处理， 
网络信息安全。郭莉（ 1969-) ，女，副研究员，主要研究方向为网络信息安全。 
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处理速 度快： 正因为骨干网络具有信息量大这一特点，每 
天可能处理上千万封邮件，甚至上亿封邮件，因此服务器每秒 
钟至少需要处理上千封邮件。这就要求垃圾邮件检测技术必须 
具有速度快这一特点，才能及时处理所有邮件。 

准 确率: 基于骨干网络和基于客户端的垃圾邮件检测技术 
对准确率要求是不相同的。在一定程度上，客户端可能容忍把 
合法邮件误判为垃圾邮件，但对于骨干网络而言，它可能因为 
误判而丢弃或延迟接收这封邮件，这是用户所不能容忍的。这 
就要求检测技术把合法邮件误判为垃圾邮件的概率尽可能地 
为0。 

语言无 关性： 骨干网络可能接收或传送各个国家的邮件， 
因此基于骨干网络垃圾邮件检测技术必须具有语言无关性这 
一特点 D 

易维 护性： 骨干网络的垃圾邮件检测系统每次运行时间 
长、人力资源干预比较少、每次维护费用髙，这就要求系统必须 
具有易维护性特点，否则整个系统的维护费用可能非常巨大。 

考虑到上述的几个特点，骨干网络垃圾邮件检测技术要充 
分利用骨干网络的优点，如信息量大等。和其它的垃圾邮件检 
测方法相比，本文中介绍的骨干网络垃圾邮件检测方法是基于 
邮件内容的相似（重复）性这一特点来判断邮件是否为垃圾邮 
件，该方法充分利用了骨干网络信息量大这一优点。 

对于单个用户或邮件客户端而言，相似邮件（大部分内容 
相同或相似的邮件)重复出现的次数一般都比较少，直观上，用 
户很难通过这些邮件重复出现的次数判定是否为垃圾邮件。但 
是对于路由器或骨干网络而言，它可能在一定时间内接收到大 
量的相似邮件。而事实上，垃圾邮件制造者也往往通过垃圾邮 
件制造工具发送大量相同或相似的邮件，特别是邮件的群发现 
象，这就导致了垃圾邮件具有重复（相似）性这一现象，因此我 
们可以在一定时间内检测骨干网络路由器的邮件重复出现的 
次数来判定接收的邮件是否为垃圾邮件。 

2相关工作 

垃圾邮件发送者为了保证其经济利益，唯一的方法就是在 
短时间内发送大量相似的内容，根据这一本质特征实现了一些 
垃圾邮件检测方法，目前常见有以下 几种： MEP 1 、 DCC [ \ Den ¬ 
sity-Based Spam Detector (本文简称为 DBSD ) [1 ^。 

MET (Malicious Email Tracking ) 项目属于 C/S 框架，它由 
哥伦比亚大学创建。它包含 MET 客户端和 MET 服务器，其中 
客户端运行在邮件服务器上，提取邮件的附件信息，并为该邮 
件计算一个唯一的效验和，最后形成报告并发送给 MET 服务 
器。 MET 服务器接收 MET 客户端发送的报告，并对报告进行 
统计，如果该校验和在一定时间内超过某一个阈值，则将相应 
记录发送给客户端。 MET 的缺点在于缺乏全局统计功能，而且 
不能识别相似邮件。 

DCC(Distiibuted Checksum Clearinghouse >工程开始于2000 
年， DCC 服务器统计各个客户端提交的校验和，并应答该校验 
和在整个系统中出现的频率； DCC 客户端工作在邮件旅务器 
上，它负责提交校验和，同时査询该校验和出现的频率，如果该 
校验和超过某个阈值，则判定当前邮件为垃圾邮件。 DCC 的缺 
点是通讯开销大、客户可以干扰系统运行。 

DBSD 通过统计服务器上的邮件重复出现的次数，如果某 
邮件重复出现的次数大于某个阈值，则判定该邮件为垃圾邮 
件'在 DBSD 方法中，每次被计算 Hash 值字符串的长度为定 


值，由于 Hash 函数具有敏感性这一特点，这可能对判定两个邮 
件是否相似产生影响。设邮件4和邮件 B 为相似邮件，邮件（： 
和邮件 S 的内容几乎完全相同 ( C 和4为相似邮件），但存在 P 
(可能为1、2,或其它比较小的值)个字符不相同，则 S 和 C 的 
N 个 Hash 值中可能存在个不相同的 Hash 值。那么 
当 C 和4相比较时，可能会判定 C 和并不相似，其原因 如下： 

因为和5相似，设相似程度为即存在 s 个相同的 
Hash 值，不妨设作2,则 S 和（:可能会存在 2 x 1=18 个不相同 
的 Hash 值，因此 C 和4至少有18个不相同的值（设4中的 
Hash 值和 C 的新 Hash 值不相同，其中新 Hash 值即为 PkL 个 
Hash 值），则它们的相似度低于⑴），则判定它们不 
相似。 

DMC 相当于一个 Hash 表，当发生冲突时, DMC 直接替换 
DMC 中的内容（即更新指针，并指向新的 Hash DB 实体 [1】 )，这 
—特点可能导致某个邮件实体死存储在 DMC 中的全部 Hash 
值都被其它邮件的 Hash 值替换，最终实体被£删除。从而检 
测实体 E 重复出现的次数可能和它实际重复出现的次数相差 
比较大，甚至可能无法检测出实体£:为垃圾邮件，因为实体瓦 
可能在检测过程中已经被删 除了。 

在 DBSD 方法的判定邮件相似方法中，我们考虑在处理字 
符串时，并不设置该字符串的长度为定值，而是根据邮件的具 
体内容确定每次处理字符串的长度。因此，我们可以考虑采用 
不定长(变长)字符串的处理方法来判定邮件是否相似。 

3基于后缀树的骨干网络垃圾邮件检测方法 
3.1 基于边的后缀树 

定义 1( 字符串后缀） ：在 字符集 S 上，设字符串… 
p t .“ p n ，长度 IPI = ra ， 则 P 从位置&开始的后缀为 •••/?„ ，其 
中1矣 A : 矣；1。 

定义 2( 后缀树） :后缀 树是表示字符串所有后缀的一种数 
据结构。一个长度为况的字符串广它的后缀树是一棵使用字 
符串表示边且存在根的拥有 AT 个叶结点的有向树，且边具有 
两个特性：（1)从同一结点出发所有边的开始字符是不相同的； 
(2) 从根结点出发到任意一个叶子结点所经历边上的字符串联 
而成的字符串为 i 3 的一个后缀。 

定义 3( 通用后缀 树）: 使用一棵后缀树表示字符串集合的 
所有后缀,该后缀树称为通用后 缀树％ 

3.2 原子后缀树 

原子后缀树和基于边的后缀树的最大不同为 ：原子 后缀树 
的每一条边只能表示一个字符，因此在表示同一个字符串时， 
原子后缀树比基于边的后缀树需要创建更多结点。 

(1) 建树算法和删除算法 

P . WeinerW 在1973第一次提出了线性时间的建树算法， 
E . McCreight [51 ^ 1976年提出了节约空间的算法 , E . UkKonen ^ 
1995年提出了容易理解的线性时间算法，并且能够按照从左 
到右顺序处理字符串，即具有 “ on - line ” 性质。 

本文中的通用后缀树的建树算法在 UkKonen 算法上进行 
改进，其基本思想 为:首 先建立第一个字符串的原子后缀树，当 
其它字符串到达时,从根结点开始匹配该字符串，直到发现未 
匹配的字符,然后从当前未匹配的结点开始添加该字符串的所 
有剩余后缀，按照同样的方法处理其它字符串。上述算法中，处 
理长度为的字符串的时间复杂度为 0 ( N) o 
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当通用后缀树中的某棵原子后缀树过时或无用时，我们采用删 
除算法囑除该原子后缀树，该算法的时间复杂度为 0( MogA^) o 
(2) K - 截枝后缀树 

由于原子后缀树需要存储空间比较大，当树的深度太大 
时，为了节约存储空间，我们需要考虑对树进行截枝，即限制树 
的深度。将深度超过给定常数 K 的树枝信息表示在第 K 层叶 
子结点中的后缀树称为 K - 截枝后缀树 I 在此，我们考虑 K - 截 
枝后的原子后缀树。 K - 截枝后缀树表示字符串后缀的最大长 
度为尺,如果字符串后缀的长度超过尺时，则丢弃从 / C +1 开始 
的后续字符。 

3.3 新的垃圾邮件检测方法 


通用后缀树结构 <&37 Structure) 



类别统计结构 (Category Counting Structure) 

类别标识 (Id) 相似数量 (SimilaiCount) 长度 (Length) 



在 DBSD 方法中的 Hash 矢量法表示邮件内容时，每次被 
计算 Hash 值字符串的长度为定值，以及 Hash 方法具有敏感性 
这一特点，这可能对判定两个邮件是否相似产生影响。其次， 
DMC 相当于一个 Hash 表，当发生冲突时， DMC 直接替换已经 
存在的值，这一特点可能导致某个邮件实体的全部 Hash 值都 
被其它邮件替换掉，从而删除该实体，进一步影响检测结果，甚 
至无法检测到该实体。 

针对上述两点，我们提出新的垃圾邮件检测方法，即基于 
后缀树的骨干网络垃圾邮件检测方法(简称为 STB - SD ), 并采 
用不定长统计方法判定邮件是否相似，即每次统计字符串的长 
度由邮件本身确定。在新的方法中，规定相似的邮件为一类，使 
用原子后缀树表示每一类邮件的内容，考虑存储空间问题，对 
原子后缀树进行-截枝处理，最后使用通用后缀树表示所有邮件 
类别的内容，同时使用类别统计结构 (Category Counting Struc - 
ture ， 简写为 CC Structure ) 统计每一类邮件的相似情况。下面 
先介绍我们方法使用的参数和阈值。 

MAX _ SUFF 〗 XTREE _ DEPTH :后缀树的最大深度。 

MIN _ MATCH _ LEN : 被统计的公共子串的最小长度。 

S 1 MILARJTHRESH 0 LD :邮件 相似度的阈值，它为一个百 
分比。 

SPAM ^THRESHOLD :判 定垃圾邮件的阈值，如果某类邮件 
重复出现的次数大于或等于该值，则判定为垃圾邮件，我们方 
法把该值设为100。 

新方法存在3个关键点：（1)判定邮件相似的方法，即如何 
判定两个邮件相似，当一封新邮件到达时，首先需要从通用后 
缀树中査找是否存在和新邮件相似的邮件； (2) 添加新的邮件类 
别，即当新邮件未找到相似邮件时，则需要创建新的邮件类别， 
并把该邮件的内容添加到通用后缀 树中； （3) 删除邮件,若某类 
邮件过时，则需要删除该类别，即从通用后缀树中删除该类别 
的后缀树，并清空它的统计信息。 

根据上述3个关键点，检测方法需要实现文本表示功能和 
邮件类别统计功能。为此，设计了通用后缀树结构 （GST 
Structure ) 和类别统计结构，如图1所示，其中通用后缀树结构 
实现邮件文本表示功能，类别统计结构实现邮件类别的统计功 
能。通用后缀树结构由一棵通用后缀树构成，它包含的每棵原 
子后缀树和类别统计结构中的每类邮件一一■对应，每棵原子 M 
缀树都使用类别统计结构中的唯一标识 ( Id ) 标识该树的所有 
结点。 

下面从处理新邮件、邮件相似公式、删除邮件三个方面描 
述检测方法的实现原理。 


图1通用后缀树结构和类别统计结构 


(1) 处理新 邮件： 当一封新邮件到达时，首先经过预处理函 
数获取邮件的正文，表示为/>，然后从通用后缀树的根结点开 
始査找与/>最相似的原子后缀树7；(由邮件 P 创建）。进一步 
出现的情况可以分为下面两种 情况： 

如果 D 和 P 被判定为相似邮件，则更新类别统计结构中 
和7；标识相同邮件类别的相似数量，即相似数量加一。若相似 
数量大于 SPAM _ THRESHOLD 阈值，则判定该类邮件为垃圾邮 
件，同时判定该新邮件为垃圾邮件。 

如果和尸被判定为不相似邮件，首先根据类别统计结 
构顺序生成 D 的唯一标识 ( Id ) ,再从通用后缀树的根结点开始 
调用后缀树的建树算法把 Z ) 添加到通用后缀树中，最后更新 
类别统计结构，即创建一个新邮件类别，并设置相似数量为！。 

(2) 邮件相似公 式：新 方法采用不定长统计方法判定两封 
邮件是否相似，判定方法描述如下： 

设两封邮件的内容分别表示为 M 和 7 V ， 长度分别为 IMI 和 
洲，其中 m 为数据串 jv 为模式串。首先从 yv 的起始位置(尺= 
0) 査找 N 和 Af 的最大公共子串，如果存在，记为 P , ，然后査找 
/ V 余下字符串（从位置开始）和 M 的最大公共子串； 
如果不存在，则递增欠。按照同样方法处理 iV 剩余字符串，直到 
/ V 的末尾位置(尺=圖-1)。设找到的所有公共子串为弋，户 2 ，…， 
巧，则 W 相似于 M 的公式 如下： , 


设函数/(幻= 


[0, \{{ x < MIN_MA TCBJLEN ) 
\ x , i {{ x ^ MIN_MA TCH _ LEN ) 


则： 


i=j_ 


k 

1 /( 

£=1 


I^D 


备 SlMILAR _ WRESfWLD==>N 和 M 相似； 


-< SmOAR _ TJmESHOLD==>N 和 M 不相似。 


叫 

(3) 删除邮件 :在类 别统计结构中，如果某一类别邮件已经 
过时，则需要删除该类邮件，删除邮件类别时需要更新通用后 
缀树结构和类别统计结构。具体方法为 :首先 ，获取被删除邮件 
类别的 Id ， 并从类别统计结构中删除该类别，回收被使用的空 
间； 然后，根据 Id 调用原子后缀树的删除算法，从通用后缀树 
中删除标识为 W 的原子后缀树。 


4实验结果与分析 

实验采用从网络中收集的真实邮件数据，总共包含14 673 
封邮件，使用连接号唯一标识每一封邮件，其中邮件内容可能 
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图 2 后缀树方法的分类实验结果 
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m 3 DBSD 方法的分类实验结果 


DBSD 方法的分类实验结果如图3所示，其中垃圾邮件类 
别总数最大为33类、最小为21类 。从 实验结果中可以看到，分 
类总数与计算每封邮件的 Hash 值个数关系比较大。 

4.2 速度方面的实验结果及其分析 

本文方法和 DBSD 方法在同一台机器进行测试，其中机器 
配置为 CPU 为 XEON ( TM )2, OGx 2, 内存为 2 Gx 2。 


DBSD 方法消耗时间的实验结果如图5所不，消耗的时间 
将随着计算每封邮件的 Hash 值个数增加而增加。从实验结果 
来看，速度最快的时候， DBSD 方法比我们方法要快。这是因为 
DBSD 方法仅仅处理邮件的前“计算每封邮件的 Hash 值个数+ 
被 Hash 字符串的长度”个字符，而丢弃后续字符，很明显该方 
法有一定的片 面性; 而我们方法需要处理邮件的所有字符。 
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图 5 DBSD 方法的消耗时间实验结果 


4.3 准确率方面的实验结果及其分析 

本文方法检测垃圾邮件的实验结果如图6所示。当邮件相 
似程度为90%以上时，检测出垃圾邮件在6 554 〜 6 968封之 
间；当 MIN _ MATCH _ LEN 为30时，检测出垃圾邮件在6 550^ 
6 589封之间，比较稳定。 

DBSD 方法的检测垃圾邮件实验结果如图7所示，检测总 
数波动比较大，随着计算每封邮件的 Hash 值个数增加而增加， 
最多为8 383封、最小为6 319封。 

我们采用后缀树表示邮件内容，通过不定长统计方法判定 
邮件是否相似，利用邮件重复岀现的次数判定是否为垃圾邮件 

(下转217页) 
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图4后缀树方法的消耗时间实验结果 


实验结果如图4所示，消耗的时间将随着 MIN _ MATCH _ 
LEN 值的增加而减少。 


检测方法 

时间复杂度 

空间复杂度 

Suffix Tree 

0(N) 

0(KxN) 

DBSD 

(W + 对 xTU) 

0(M) 


值得说明的是，在 DBSD 方法中，当 [) MC 存储的 Hash 值 
发生冲突时， DMC 的内容直接被替换，这将可能影响实验结 
果。因此，实验采用不同 Hash 方法，结果可能不相同，本实验中 
采用 Karp - Rabin 哈希函数。 

我们分別调整 MINJV 1 ATCH _ LEN 、 SIMILAR _ THRESH - 
0 LD 、 被计算 Hash 值字符串的长度、计算每封邮件的 Hash 值 
个数等参数的值，分别从分类、速度和准确率三个方面进行了 
实验，下面我们将介绍这些实验的结果及其分析。 

4.1 分类方面的实验结果及其分析 

本文方法的分类实验结果如图2所示》垃圾邮件类别总数 
最大为28类、最小为21类。当邮件相似度为90%时，垃圾邮件 
类别总数最大为23类、最小为21类。当 MIN _ MATCH _ LEN 为 
30时，分类总数为21类，实验结果比较稳定。 


为英文字符串、 Unicode 代码字符串和经 Base 64 编码后的字符 
串。我们的实验是独立于任何语种，在实验过程中不进行语种 
区分。在实验中，如果某类邮件重复出现的次数超过阈值100, 
则判定该类邮件为垃圾邮件。 

本文对系统分类效果的评价主要使用 F 1 测试值。设后缀 
树的最大深度为 30、 MIN _ MATCH _ LEN 值为30、邮件相似度 
SIM 1 LAR _ THRESH 0 LD 为90%，我们的方法和 DBSD 方法的 
分类结果如表1所示。 


表1实验分类结果 


检测方法 

圾邮件数量 

类别数量 

邮件总数量 

F1 测试值 

Suffix Tree 

6 554 

21 

14 673 

55.60% 

DBSD 

6 584 

21 

14 673 

54.24% 


设邮件的长度为/ V ，后缀树的最大深度为 K,msD 方法中 
计算每封邮件 Hash 值的个数为 W ， 计算每个 Hash 值的时间 
为。我们的方法 、 DB SD 方法的性能比较如表2所示 oDBSD 
方法的时间复杂度和邮件长度没有具体关系，只与计算 M 个 
Hash 值的时间、判定邮件相似的时间有关。 

表2性能比较表 
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图 6 后缀树方法的检测垃圾邮件实验结果 
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图7 DBSD 方法的检測垃圾邮件实验结果 

等技术实现了骨干网垃圾邮件检测方法，并从分类、速度和准确 
率三个方面和 DBSD 方法进行了实验对比。本文方法的分类的 
稳定性和准确率、垃圾邮件检测的准确率都比 DBSD 方法要好。 

5总结及将来的工作 

本文介绍了一种基于后缀树的骨干网垃圾邮件检测方法。 
它主要实现了两个功能：（1)邮件文本表示功能，即采用后缀树 


(上接135页) 


文本表示 方法； (2) 邮件类别统计功能，即通过不定长统计方法 
判定邮件是否相似，然后利用邮件重复出现的次数判定是否为 
垃圾邮件。对于长度为 W 的邮件，算法的时间复杂度和空间复 
杂度均为 0( AO , 另外，该方法不需要任何训练，独立于任何语 
种。 实验表明该方法的稳定性和准确率都比较好。 

下一步的工作包 括：减 小后缀树的存储空间 •，进 一步提髙 
邮件相似公式的准 确率; 进一步提髙垃圾邮件检测的性能等。 

致谢： 在此，向对本文的工作给予支持和建议的老师、同 
学，尤其是中科院计算所的郭莉老师、谭建龙老师、张吉师姐表 
示感谢。（收稿日期：2005年12月） 
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( a ) 横断面 （ b > 矢状面 （ c ) 冠状面 

图4显示三个正交面 


7.2 图像漫游 

在每1个正交面图像下面放置1个滚动条，当滚动条从左 
至右拖动时，图像从前至后连续播放。横断面滚动条被从左至 
右拖动时，横断面从头顶到下巴连续 显示； 矢状面滚动条被从 
左至右拖动时，矢状面从右耳至左耳连续 显示； 冠状面滚动条 
被从左至右拖动时，冠状面从鼻子至后脑勺连续显示。这便是 
图像漫游。 

8结语 

采用面向对象方法建立的医学图像工作站，程序易读性 
好、功能增减方便、代码重用率高、版本升级周期短，应该成为 
医学图像编程的一个标准。图像插值、调窗、分割、显示是医学 
图像工作站基本功能和主要技术，图像质量、显示速度、交互 
性、易操作性是图像工作站的性能指标，本文从使用角度提出 


一些实用算法，给出实验结果，希望能起到抛砖引玉作用。近年 

来，三维显示逐渐成为图像工作站一项功能，我们将另外撰文 

讨论。（收稿日期:2005年12月） 
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面向入侵检测的单模式匹配算法性能分析 

殷丽华张冬艳方滨兴 

(哈尔滨工业大学卄算机科学与技术学院，哈尔滨 150001) 
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摘要对基于规则的入侵检測系统来说，模式匹配算法非常重要，它直接影响到系统的准确性和实 时性。 文章针对入 
侵检測系统中的模式匹配问題，通过实验模拟，对若千种单模式匹配算法的性能进行分析，以得到适用于对大规模数据 
实时定位的高效单模式匹配算法。 

关鍵词入侵检测模式匹配性能測试 

文章编号 1002-8331-(2004)24-0001-03 文献标识码 A 中图分类号 TP 393.08 


The Performance Analysis of Single Pattern Matching 
Algorithms for Intrusion Detection 

Yin Lihua Zhang Dongvan Fang Binxing 

(School of Computer Science and Technology ， Harbin Institute of Technology ， Harbin 150001) 
Abstract : Pattern matching algorithms are very important for the rule-based intrusion detection system.They directly in ¬ 
fluence the accuracy and real-time performance of the system.This paper>makes experimental simulations to test some 
typical Single Pattern matching algorithms and the results indicate that which algorithm is the best . 

Keywords : intrusion detection ， pattern matching»performance test 


l 引言 

检測引擎是入侵检測系统的关键部分.而数据分析又是检 
測引擎部分的重要模块.数据分析涉及到两个问题 ：如 何描述 
入侵行为；使用什么样的算法来快速准确地检测出入侵行为。 
文章针对第二个问題，对若干种单模式匹配算法的性能逬行分 
析，以得到适用于对大规糢数据实时定位的高效单模式匹配算 
法。此項研究在实际的工程应用中有着很大的意义。 

2算法简介 

模式匹 fc 分为单模式匹配和多模式匹配.单模式匹配可定 
义 为：在 一个文本串 slring [ 1 :中套找某令特定的子串 pattern 
[1 : m .] 。如果 string 中找到等于 pattern 的子串 ，則 称匹配成功， 
函数返回 pattern 在 string 中出现的位罝（或序号），否則匹&失 
9 k . =单椟 式匹配 算法种类很多，该节简要介绍了 一些经典的单 
糢匹配算法. 

2.1 BF 算法 

BF 算法是出现最早的一种算法，其思想非常 简单： 从左向 
右，依次比较，每次移动一个字符位罝*其时间复杂度 0( mn ). 
辅助空间为常数. 

2.2 KMP 算法⑴ 

KMP 算法是对 BF 算法的改逬.利用已匹妃成功部分的信 


息.即前缀模式（模式中不同部分存在的相同子串）可以使模式 
向前推逬若千字符位置，而不只是一个字符，避免了重复比较， 
同时也实现了文本指针的无 回朔. 

预处理阶段时间、空间复杂度均为 0( m ) ，搜索阶段时间 
复杂度为 0( n + m ) ，与字符集大小无关 • 

2.3 BM 算法【 2 】 

BM 算法被盛誉为達度最快的算法。算法对模式自右向左 
扫描•在不匹配（或完全匹配）时.用两个预先针算的函数 bad - 
character 和 goodsuffix 来确定指针在正文中移动的距离 • 

Goodsuffix 利用已成功完成的字符匹配，把已匹配部分看 
作整个模式的子模式.考虑模式前面一段中是否有与此子模式 
相匹配 的片断，因此可以使模式串向前移动更远的距离。由于 
bm 算法是从右向左比较的.所以构造出的是后 m 数组。 

Badcharacter 則计算出字符集中每个字符的偏移值 bmBC 
[ i ]. 对于未在模式中出现的字符.偏移为 m . 否则取 m - i -1 (其 
中/为字符在模式中的位置），即取此字符在模式中出现的最 
右位置和文本中此字符位置对齐.若字符未在模式中出现.則 
可将模式向前推 m 个字符位罝=但是，在某些情况下这种偏移 
可能是5*的》实际的偏移值取的是两者中值较大者。 

预处理阶段时间复杂度为 0 ( m + s )- 空间复杂度为 0 G ). 
捎索阶段时间复杂度为,最坏情况下要比较逬行 3 n . 次 
比较.最好情况下时间复杂度为 0 ( n / m ) • 


基金項目 ： 国家自然科学基金资助项目（编号 ：60203021) ;国家 863 高技术研究发展卄划资助项目（编号 ：2002 AA 142020) 

作者 简介： 殷菊华.女，博士研究生.主要研究方向为计算机网络与信息安全.张冬艳，女.博士研究生，主要研究方向为计算机网络与信息安全。 
方滨兴，男.教授.博士生导师，主要研究领域为卄算仉网络与信息安全，并行卄算.高性能卄算机体系结构. 
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2.4 QS 算法 i 3 i 

QS 算法是对 BM 算法的简化，可以从任意方向比较，而且 
只使用了 badcharacter 表，并对其作了修 改：对 于未在模式中 
出现的字符，偏移为 m +1, 否則取 m - i •这样，每个字符的偏移 
值至少为1,保证了文本指针永远正向移动。 

預处理阶段时间复杂度为 OGn + s ), 空间复杂度为 0 G ). 
搜索阶段时间复杂度为 0( m . n ,). 最坏情况下可达到平方級，但 
在实际应用中達度很快，适合较大字符集和长度较短 模式。 

2.5 TUNEDBM 算法 w 

TUNEDBM 算法也是 BM 算法的简化实现。考虑到字符的 
比较操作是串匹配算法中最费时的部分，因而可以在实际比较 
前尽量向前移动 模式。 算法只使用了 badcharacter 輔助数组， 
在拽索阶段，算法在正文查找即模式中的最后一个字 
符），若不匹配则指针一直向前移动，直到找到它。即在找到 x 
的情况下，才进行整个模式的匹 fc 。 

在算法实现中，使用一个变量 shift 来保存 bmBC [： v [ m - l ]]. 
而 bniBCMm -1]] 则设为0,以此来作为在正文中找到的 
标志。同时需要在正文的最后加上 m 个 x [ r 7 i — 1 ] ，当1 ] 找到 
后，再比较正文指针位置升始的 m -1 个字符•此后指针移动的 
距离为 shift • 

预处理阶段时间复杂度为空间复杂度为 0 G + 
m ) =搜索阶段时间复杂度最坏情况下可达到平方級，但在实际 
应用中效率 很高。 此算法可有效的減少字符比较次数，从而缩 
短算法执行时间。 

2.6 HORSPOOL 算法％ 


HORSPOOL 算法是 BM 算法的简化实现，只使用 badchar ¬ 
acter 辅助数组。首先比较文本指针所指字符和模式的最后一 
个字符，如相等再比较其余 m -1 个字符。无论相等与否都将使 
文本指针向前移动此字符的偏移个位置。 

预处理阶段时间复杂度为空间复杂度为 0 G )。 
搜索阶段时间复杂度为 0( mn ), 可以证明每个字符平均比较 
次数介于 1/ s 和 2/ G +1) 之间。 

2.7 其他算法 W 

除了上述经典算法外还有一些非常有特色的 算法： 

Shif - Oi •算法 ：使用 了位运算技术•采用一个尺寸为 m 的位 
数组 Rlj 是文本的第 ） 个字符处理之后尺 的值。从尺 j 到 Rj + 
1的转换采用 left shit ， 和 or 运算，算法因此得名。 

DFA 算 法：使 用了最小有限自动机 技术。 通过构造自动机 
来识别 模式。 

Kaip - Rabin 算法：使用了哈希 技术。 

3 測试方案设计 

仅仅分析每个算法的时间复杂度并不能完全比较出算法 
的实际效车，因为理论假设和实际情况的差异以及算法本身实 
现带来的问題都有可能使实际效果出现偏差。这里恨据衡量算 
法的主要指栋，即运行时间来进行实际使用效率的測试。 

3.1 測试系统环境 

测试平台 ：清 华同方，双 CPlhPHl 600 MHz ， 内存 ：1 GB » 

操作系统 : Red Hat Linux 6.2 。 

编译器为 GNU C compiler egcs ~2.91.66. 


表1自然语言文本的匹配时间比较（时间 ： ms ) 


算法 

2 

5 

8 

10 

14 

20 

25 

30 

ALPHASKIP 

226.283 

104.65 

73.796 

63.656 

49.758 

38.669 

33.228 

29.896 

AUT 

423.019 

422.809 

422.711 

422.588 

422.705 

422.982 

422.827 

422.975 

AXAMAC 

116.550 

116.882 

118.435 

116.750 

118.299 

117.158 

116.983 

118.187 

BF 

273.983 

273.102 

273.200 

274.202 

273.181 

273.456 

272.587 

272.770 

BM 

73.926 

39.503 

29.681 

25.470 

22.635 

19.654 

15.838 

14.550 

BOM 

137.673 

93.003 

77.303 

65.550. 

61.772 

56.625 

45.106 

43.715 

BR 

101.119 

65.117 

50.729 

44.430 

36.367 

29.735 

26.871 

24.070 

COLLUSSI 

150.046 

148.943 

149.269 

148.983 

149.148 

148.990 

148.902 

149.042 

GG 

169.753 

166.835 

166.643 

166.932 

166.618 

166.702 

166.743 

166.312 

GS 

322.259 

315.102 

317.835 

325.746 

317.900 

319.373 

314.767 

312.019 

HORSPOOL 

62.550 

36.394 

28.217 

24.359 

21.734 

18.359 

15.458 

13.969 

KMP 

99.446 

92.725 

93.348 

101.714 

92.229 

94.614 

88.621 

89.035 

KR 

82.998 

78.789 

78.067 

78.174 

78.178 

78.634 

78.203 

78.459 

MP 

99.398 

93.161 

95.378 

103.385 

92.502 

95.739 

90.307 

89.487 

MS 

53.058 

36.796 

30.232 

25.596 

21.820 

18.939 

15.758 

14.990 

NSN 

61.852 

70.485 

73.836 

70.473 

73.561 

70.744 

70.569 

73.937 

OM 

65.974 

43.971 

35.313 

30.156 

26.831 

23.198 

19.312 

17.680 

QS 

121.173 

71.723 

54.255 

46.789 

40.104 

36.163 

27.848 

26.431 

HAITA 

62.670 

33.753 

25.588 

22.521 

20.240 

18.162 

14.823 

14.018 

RF 

245.975 

126.985 

90.690 

76.119 

66.719 

63.364 

43.223 

49.672 

SMITH 

120.833 

68.594 

49.822 

42.967 

36.654 

31.848 

25.384 

24.072 

SMOA 

136.282 

110.151 

111.327 

131.793 

111.751 

118.240 

101.353 

102.873 

SO 

63.947 

63.429 

63.363 

63.358 

63.291 

63.426 

63.558 

63.595 

TBM 

121.825 

61.218 

43.530 

36.19! 

32.363 

27.618 

20.945 

19.492 

TUNEDBM 

58.687 

35.410 

28.183 

22.776 

20.169 

16.649 

15.13! 

13.352 

TW 

93.615 

87.524 

91.625 

89.609 

91.831 

91.945 

90.208 

90.096 

最快 的算法 

MS 

TUNED 

BM 

TUNED 

BM 

TUNED 

BM 

TUNED 

BM 

TUNED 

BM 

TUNED 

BM 

TUNED 

BM 


注 ：斜 体帝下划线的数据表示该种长度模式下最快的执行时间 
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3.2 测试文本的选取 

首先假设字符集内每个字符在文本中出现的概牟是固定 
的。实际測试时选取较长的文本，主要基于两方面考虑 ：一方 
面，参加比较測试的算法都是较优的，在模式长度固定时，平均 
时间复杂度与文本长度至少是线性 关系； 另一方面.測试时由 
于多逬程等因素.计算出的測试时间必然存在误差.当測试程 
序的运行时间足够长时，这种不确定的相对误差就可以忽略， 
从而可以更有效地比较算法的效率. 

3.3 测试实验设计 

实验一 ：26 神单模 式匹配 算法运行时间的比较 測试； 

实 验二： 经过实验一筛选出较快的 5 种算法与 BF 算法， 
对文本中不同位罝模式串的查找时间 測试. 

4 实验结果与分析 

4.1 多种单模式匹配算法运行时间比较 
基本 输入及 要求： 

(1) 測试 文本： 大小为 2.12 M 的纯英文自然语言 文本； 

(2) 摸式 :长度 分别为 2、5、8、10.14、20、25、30 的英文字符 

串： 

(3) 匹& 结果： 匹配出整个文本出现关鍵字的所有位置. 
測试 结果： 

共对26种算法实现了运行时间的比较測试 • 结果如表1 
所示 • 

測试 结论： 

从表丨数据可以 看出： 

第一，当模式长度在 2 到 30 之间变化时，每种模式长度下 
最快的 5 种算法始终是 MS -SMITH -HORSPOOL TUNEDBM > 
QS - 它们效车的变化曲线近似双曲线（如图 1 中 QS 算法曲 
线），可见在文本长度固定时，执行时间与需要匹 配的模 式长度 
成反比 • 这些算法都是 BM 算法的变种 • 

第二，参加測试的算法中，除 BM 及其变种以外的算法，如 
BF AUT 、 C 0 LUSSI 、 GG 、 GS、KMP MP BF 、 S 0 等.其运行时间 
取决于文本的长度，与模式长度无关.如图丨中 BF 算法曲线 
所示。 

第三， TUNEDBM 算法在測试中是最快的算法. 



图1两类算法匹紀效車变化图 


4.2 不同位置模式串的查找时间比较 

基本输入及要求： 

(1) 測试 文本： 大小为 2.12 M 的纯英文自然语言文本。 

(2) 模式 ：分 别在文本升头，中部和末尾人为插入模式长度 
为20的特殊字符串. 

(3) 匹配 结果： 匹&出在整个文本中出现关鍵字的第一个 
位罝。 

測试 结果： 


该实验对比算法为实验一筛选出的较快的 5 种算法（分别 
是 MS SMITH HORSPOOL TUNEDBM 、 QS ) 和最简单的 BF 算 
法，表 2、 表 3、 表 4 分別列出了在文件头部、中部、尾部成功查 
找到特定模式的算法运行时间 • 

表2 查找文本头部的效車比较（时间 m S ) 


算法 

无优化 

初步优化 

编译优化 

BF 

0.081 

0.018 

0.008 

MS 

0.048 


0.039 

SMITH 

0.030 

0.025 

0.011 

HORSPOOL 

0.018 

0.019 

0.008 

TUENDBM 

0.022 

0.023 

0.012 

QS 

0.024 

0.017 

0.008 

表 3 查找文本中部的效车比较（时间 ms ) 

算法 

无优化 

初步优化 

编译优化 

BF 

17.847 

20.383 

12.833 

MS 

9.956 


8.477 

SMITH 

16.208 

8.447 

7.670 

HORSPOOL 

9.777 

8.838 

6.761 

TUENDBM 

9.473 

9.137 

5.999 

QS 

17.739 

7.337 

6.078 

表 4 查找文本尾部的效车比较（时间 ms ) 

算法 

无优化 

初步优化 

编译优化 

BF 

276.204 

40.088 

25.260 

MS 

20.256 


16.936 

SMITH 

34.843 

17.664 

15.890 

HORSPOOL 

19.847 

19.045 

13.902 

TUENDBM 

18.288 

17.837 

12.232 

QS 

37.988 

15.054 

12.191 


为更清晰地观察结果，对文件尾部查找时间（表 4 数据）绘 
得直方图，如图2 = 



BF HS SMITH HORSPOOL TUNEE6X QS 

图2 对文件尾部查找成功时间对比图 

測试 结论： 

从表 2、 表 3、 表 4 和图 2 中可以看出 TUNEDBM 和是 
最快的两种算法。另外也可以看到编译优化对程序的效率提高 
很大，一般能提高1倍以上。 

4.3 编译优化对程序的影响 

在用 gcc 的 Oh .] 选項做编译优化时，不同的选项对效率的 
提高有差别。用《优化时，提高最明显.再02优化时提高也比 
较明显，但是再用 03 优化时几乎没有太好的改善 • 图 3 是对 
BF 算法编译优化时显示的效果。 

5 结束语 

文章针对入侵检测中模式匹&问題.首先对多种单模式匹 
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文献 [13~16 j 中对版本控制和增量数据的表示问题进行了 
一些研究。笔者提出了一种基于 XML 技术的可扩展性的增量 
数据的表示方法=在图4中，从“ instance 2 ”到“ instance 3 ”是一个 
增量设计的 floorplaning 。仅记录在 installed 中需要被修改的 
一些对象参数值作为 instance 3 的输入文件.图5给出了这些 
需要改变的对象的增量数据表示和它的 Predecessor 版本之间 
的关系 • 

5 布图中基于 XML 其他数据管理服务 

与 XML 有关的还有其他一些技术，例如 XSL 用来进行文 
件格式的转换 . Xlink 和 Xpath 用来查询和链接等等。利用 XML 
及其相关的技术可以建立布图中基于 XML 的中间数据源的数 
据管理框架，如图6所示。 


Incremeilal 


Distributed file 

Data 


stotag* 



困6 布困中基于 XML 的中间数据源管理系统 


基于此可以很方便地扩展数据类型，快達地处理临时数 
据结果，支持分布式多文件的集成.并且进一步地管理设计过 
程和工具乎台的交互等. 

6 结论 

考虑 VLSI 设计方法及特点.文章分析了 1 C 布图阶段所需 
要的对象信息和表示需求.利用 XML 的易交互性和可扩展性 
提出了基于 XML 的中间数据源的一种数据集成方法。针对该 
如数据存储文件格式的括准变化太快、版本控制以及多目标优 
化设计和增量设计等关鍵问題，逬行了详细的探讨.并给出了 


基于 XML 的有效解决方法 • （收稿日期：2_年5月） 
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图 3 编译优化的效果对比图 


配算法的运行效率进行測试比较，找出效率较高的5种算法。 
44 2004.24 计算机工程与应用 


在此基础上作进一步的測试，得出适用于对大规模数据实时定 
位的高效单模式匹配算法。并探讨了 Linux 环境下编译优化对 
算法效率的 影响。 （收槁日期：2004年5月） 
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基于半轮询驱动的网络入侵检测单元的设计与实现 

田志宏，方滨兴，张宏莉 

(哈尔滨工业大学国家什算机信息内容安全重点实验室.黑龙江哈尔滨150001> 

摘 要： 在分析了网络入侵检測系统主要问題的基础上，设计并实现了一个面向网络的入侵检測 
单元 NIDU 。 由于采用对等式架构， NIDU 具有良好的可扩展性。提出了半轮询驱动的概念，利用 
半轮询驱动机制降低了系统中断频率，明显提高数据采集 能力； 同时采用基于相关度的异常检測 
技术，对 DoS 和 DDoS 攻击的检測效果较现有方法有明显 改善。 

关 鍵词： 入侵 检測； 半轮询 驱动； 相 关度； 通信协议 

中图分 类号： TP393.08 文献标识码 ： B 文章 编号： 1000-436X(2004)07-0146-07 


Design and implementation of network intrusion detection 
unit based on semi-polling driven 

TIAN Zhi - hong , FANG Bin - xing , ZHANG Hong-li 

(National Computer Information Content Security Key Library , Harbin Institute of Technology , Harbin 150001, China ) 


Abstract: A network intrusion detection unit based on semi-polling driven (NIDU) was designed and 
implemented on the basis of analysis over the performance bottleneck. With peer architecture, NIDU has 
characteristic of scalability. A concept of semi-polling driven is presented. With it，interrupts fi equeiicy 
is reduced and the performance of capturing packet is significantly improved NIDU uses anomaly 
detection technology based on similarity, which improves the detection effect of the attack of DoS and 
DDoS dramatically. 

Keywords: intrusion detection; semi-polling; similarity; commimication protocol 

l 引言 


自从 Denning 在 1987 年提出第一个入侵检測系统模型以来，入侵检測技术得到了快達发 
展，随着网络规模的日益扩大，传统的 10 Mbit / s 共享式局域网已迅達被 100 Mbit / sU 000 Mbit/s 
的交换网络所取代，网络入侵检测系统也逐渐代替基于主机的检測而成为入侵检測研究的主 
流⑴。 

网络入侵检測系统面临的主要难題可总结如下： 1) 大规模的网络拓扑要求检測单元具有 
高度可扩展性 [ ； 2 ) 骨千网中每秒上吉比特的网络流量对入侵检測的实时性和数据处理性能 
提出了挑战【 3] ; 3) 节点间传送各类长度很短的控制信息使如何提高短报文的处理能力成为倍 
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受关注的核心 问題； 4) 大流量数据下行之有效的异常检測技术。 

由此，本文提出并实现了一个基于半轮询驱动的具有高可扩展性的网络入侵检測单元 
NIDU (network intrusion detection unit based on semi-polling driven ) » 通过模块化的设计、基 
于半轮询的用户級数据采集机制以及基于网络流量相关度的异常检測技术， NIDU 很好的解 
决了上述问題，实验表明， NIDU 具有良好的性能，能够适应大规模、大流量网络环境的需 
求， 


2 NIDU 的设计与实现 


NIDU 的软件结构如图1所示，层次化的设计将数据源与分析过程分离，便于系统实现 
维护与扩展。数据采集引擎负责屏蔽底层的硬件平台，并捕获该 NIDU 监控链路上所有的数 
据报文，产生更高层次的抽象数据流；对于需要进行相关性分 
析的数据，则向上提交给信息交换引擎，由其完成和其它 NIDU 
通信并交换相关 信息； 其它数据利用分析决断引擎的异常检測 
机制进行分析，产生结果报告并决定是否传递给告警响应引擎 
来进行响应动作。每个 NIDU 是组成入侵检測系统 （ IDS ) 的 
独立实体，是整个系统的核心功能部件，具备 IDS 的一切功能 
与机制。无论在物理位置上与逻辑功能上，每个 MDU 都相对 
独立，都可以脱离其他 NIDU 而作为一个自治的 IDS 存在。这 
种对等式的架构使得 NIDU 具有很好的扩展性，对于更大规模 H 
的网络，只需在新加入的检測点增添 NIDU , 稍加配置即可。 


NIDU 

分析决 断引擎 

2 ^ 


2.1 基于半轮询驱动的数据采集引擎 


图1 MDU 的软件结构 


数据采集引擎为 NIDU 提供从物理网络（网络接口卡）直接收集数据链路层网络原始信 


息的能力。这部分对于保证整个系统的检測效率至关重要 ，即： 该层必须要有很高的网络数 
据捕捉性能。目前比较流行的数据采集平台有 Libpcap w , KLMP [ 5 ] 和 MMUC ⑷。 图2给出了 
几种平台的结构比较。 



(a)Libpcap (b)KLMP (c)MMUC (d)UMPS 


图 2 四种乎台的结构比较 

Libpcap 是基于传统 TCP / IP 协议栈的函数库，但操作系统中低效的网络协议构架导致报 
文传输过程中存在频繁的系统调用、数据拷贝以及系统上下文切换开销，因此，其低下的数 
据采集性能无法适应大规模网络环境的 需求； 基于内核可加载模块的 KLMP 绕过系统的 
TCP / IP 协议栈中协议层和套接字层，減少了系统调用和内存拷贝的次数，但是其本质的用户 
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区-内核分級结构并没有完全将操作系统从报文传输的关鍵路径中去除，性能瓶颈依然 存在； 
MMUC 采用了用户区-设备扁平结构的用户級网络通讯构架，通过共享 Buffer 在系统核心与 
用户态之间高效地进行数据交换，实现了真正的数据零拷贝，但其纯中断驱动的数据采集机 
制使得短报文的处理性能效果不佳。 

综合考虑上述不足，我们提出了基于半轮询驱动的数据采集机制 UMPS . 通过精简的用 
户級通信协议， UMPS 完全旁路操作系统，实现了网络设备到用户区的最短报文传输 路径； 
半轮询机制是用户級通信协议的扩展，其基于状态的调度方式降低了中断频率，在保证原有 
性能的前提下，使得系统的短报文处理能力得到了较大提高。图 3 是根据半轮询驱动机制得 
到的有限状态机模型。 

图3中，①表示第一个报文到达，系统由开中 
断状态下初始状态 S 转变为关中断状态下轮询机制 
P ， 并通过可配置的滑动窗口尺寸 T 控制每次轮询 
所接收的报文个数 及； ②若 R > T ， 说明报文输入率 
接近或达到系统饱和状态，则继续保持轮询驱动模 
式；③若及 < r , 为避免轮询开销，重新打开中断， 

直到下一个报文到达，并重复④、②、③；④开中 
断状态 I 下，接收到一个新报文，则重新改变为关 
中断状态下轮询机制 P ; ⑤、⑥如内存资源耗尽， 

則重新回到初始状态 s ,以释放所有 资源。 

半轮询驱动机制将中断与轮询紧凑结合，保证了在系统高负载情況下使用轮询操作，而 
在低负载情况下使用中断模式，充分发挥二者优点的同时避免了各自的缺陷，在中断延迟与 
系统峰值吞吐量之间做到了很好的平衡。測试数据表明，采用半轮询机制后，減少中断次数 
的效果非常明显，数据采集引擎的报文峰值吞吐量有较大幅度的 提高。 

2.2 信息交换引擎 

在我们的系统中，每个 NIDU 作为独立的检測分析单元，都可以脱离其他 NIDU 而作为 
一个自治的 IDS 存在。但有时单个 NIDU 所收集的信息可能不能判定可疑行为，需要数个 
NIDU —起才能涵盖入侵的所有方面。为了正确检測到可疑行为，这些 NIDU 必须依靠信息 
交换引擎来相互协作完成检測 任务。 信息交换引擎所采用通信协议的格式为五 元组： 

<通信内容> ::= < 发送者 x 接收者 x 时间 x 事件 x 可疑置信度>。 

NIDU 之间的通信是由事件触发的，一旦与可疑相关的活动发生， NIDU 就会立即向所有 
NIDU 广播一个可疑信息包。某个 NIDU 收到可疑信息包时，将提升自己针对该事件的可疑 
置信度，在后续检測过程中，该 MDU 也可以向外发出可疑信息包。 

可疑置信度通过如下方0式计算，设有个 NIDU { MW , …风 } 相互协作， N , 的可疑置 
信度为 s ,， 如果％收到 JV ； 的可疑信息包，则％的可疑置信度为~ +1 = ~的初始值为 

零，\为加杈因子0<人 ; <1 » 

我们还引入两个函数 e ⑺和 e ⑺的值随时间/增加而衰減，可以让 nidu 的可疑置信 
度随时间而下降，如果接收到一个可疑信息包， NIDU 将提升自己的可疑置信度，并将 6(0 
重新置零。反之，它就会逐渐恢复到正常操作状态，并继续 监控；而办) 为 NIDU 自身对可疑 
事件的判断结果，如果通过后续检測认为该事件确实可疑，则增加可疑置信度的值，否则 
減少 该值。 


关屮断 



s = 初始状态 
p = 轮询驱动方式 
尺=己接收报文数 


1=中断驱动方式 
>滑动窗口尺寸 
M = 系统内存耗尽 


图3半轮询驱动有限状态机模型 
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最终，某个 NIDU 的可疑置信度超过了预先设定的阈值，它就可以向操作员发出告警信 
息，请操作员核实是否发生了入侵事件。 

2.3 分析决断引擎 

在大规模网络下，由于巨大的背景流量存在，很多攻击，例如 DoS , DDoS 攻击或者蠕 
虫爆发，难于被传统的基于规则匹配的网络入侵检測系统识别。通过大量实验我们发现，对 
网络节点流量的采样统计结果是相对稳定的，当节点受到上述攻击时会破坏这种稳定性。然 
而，只要清楚节点流量采样统计结果的变化程度，就可以判定网络流量的异常，进而准确的 
定位导致剧变的因素⑺。因此，我们的分析决断引擎利用相关度来刻画该变化程度并依此进 
行异常检測。这里的相关度采用概率统计理论中的相关系数。由于在 TCP / IP 协议中，四元组 
(源 IP 、 目的 IP 、 源端口、目的端口）惟一地确定了一个连接，所以我们对四元组进行采样 
统计。 

以目的 IP 为例，该异常检測算法框架可描 述为： 

DataWatch () 

{ 

定时采样； 

取相邻两个时刻 Tr T 2 ( T ,< T 2 )» 所记录的样本数据集合为 A ， B , 其中： 

A ={ ai , a 2, .•… ， a n } ， B ={ bi ， b ；；,. , b n }; 

for ( k =0; k ++; k < n ) // 得到用于计算相关度的另一集合 C ={ ci , C3 ,.... , Cn } 

{ 

if ( b k ’ e A ’） // 假设样本 IP 集合 A ’ 中与 b k ’ 相等的元素为 a,’（j e 1- n ) 

Ck=a,; 

else 

c k =0; 

} 

P = simProcess ( B , C ); // 对集合 B , C 中的数据进行求相关系数 P 的操作 

} 

算法中基于如下采样 原则： 首先根据所检測网络的规模确定 n ， 将该网络内所有 IP 的流 
量由高到低排序，位于前; i 位的 IP 地址存入样本 IP 集合人’，集合; I ’中的 IP 所对应的流量占 
总带宽的百分比存入样本数据集合 X ,这里 X ’~ X ， 即两个集合是对等的。 

上述算法得到的 P 就是反映流量分布变化程度的量值，两个时 刻的尸 值越接近表示两个 
时刻的流量分布越相似。如果前后两个时刻的尸值出现较大的颠簸，则可以认为网络流量上 
出现异常。 

2.4 告警响应引擎 

告警响应引擎会跟据分析决断引擎产生的结果，通过预先指定的响应行为来执行相应的 
反应动作> 具体实现中，我们采用过滤、告警与响应相结合的方式。 

过滤是指通知数据采集引擎，主动丢弃相应类型的数据包，这对于防止针对 NIDU 本身 
的攻击，例如 DoS [ s ] 攻击与端口扫描，是相当有效的。 

告警则是当检测到入侵行为，利用电子邮件向操作员发送通知或者在终端出现警告窗口 
等。 

响应则是一种主动防御的方式。我们对检測结果进行分級，并通过阻断入侵发起者的网 
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图4半轮询驱动机制下中断次数 图5数据采集引擎性能比较 

3.2 信息交换引擎性能分析 

在可行性方面，由于可疑信息包通常很小（小于 256 byte )， 若要通过信息交换引擎进行 
多 MDU 的高效协同检测， MDU 必须具有足够高的短报文处理性能。从图5可以看出，由 
于采用半轮询驱动， NIDU 的数据采集引擎在短报文处理性能方面较现有机制有了较大的提 


络连接，或者与防火墙进行联动等主动措施对不同級别的入侵事件进行响应。 

同其他入侵检測系统不同，我们的告警响应引擎的最大特色就是响应的实时性。很多需 
要中央控制的分布式入侵检測系统中，数据采集、分析与响应模块在物理上是分离的，因此 
入侵检測结果的处理往往是延迟进行。而 NIDU 采用对等式的自治节点架构，数据采集、分 
析与响应紧密的耦合在一起，能够保证检測与响应的实时性，对防止事态的扩大，減少危害 
程度有及其重要的意义。 

3实验结果分析 

为了对 NIDU 的性能作进一步的分析，我们对所实现的实例进行了性能測试。性能测试 
是在曙光服务器 （ CPU - PIV 2.0 GHZX 2， 内存 -4 G ), 使用千兆快達以太网卡进行的。采取 
光纤与专用硬件发包机 SmartBits -6000( B ) 以及 Cisco 交换机相联。 

3.1 数据采集峰值吞吐率 

在完全输入短报文 （ Mbyte 和 128 byte 的 IP 包）的情况下，针对半轮询驱动机制在控制 
中断次数的性能方面进行了实验。不同的達率和报文长度下，每次发送100000个报文，经过 
多次測试求取平均值后得到中断产生次数的结果如图4所示。从实际的测量数据可以看出， 
隨着报文输入達率的增加，中断次数不断減少。而同样的情况下，每包中断机制将产生100000 
次中断，相比之下，半轮询驱动机制減少中断次数的效果非常明显，为低开销和高带宽的短 
报文处理能力提供了有效保证。 

图5为数据采集引擎 UMPS 在峰值吞吐量上与 MMUC 、 KLMP 和 Libpcap 的比较结果。 
可以看出，由于半轮询驱动机制減少了中断频率，在处理长度小于 256 byte 的短报文时 ， UMPS 
的处理性能是最好的。 UMPS 的峰值吞吐量接近线速，远远高于后 三者。 在处理大小为1500 
字节的 IP 数据报文时，达到极限值 895 Mbit / s ， 接近1 Gbit / s , 发挥了网卡性能的89.5%,在 
流量上的性能提高非常明显，实现了数据采集性能的最大化。 
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高，为信息交换引擎可靠、高效、稳定的工作提供了有力保证。 

在实用性方面，我们采用两个 NIDU (队和风）来分别监控两个小型局域网 （ L a * L b )。 
首先，模拟的攻击者对“的某台主机发起攻击，被监控该网的队发现并向 N b 发出了描述该 
攻击事件的可疑信息包。之后，当模扭的攻击者采用大体相同的方法攻击 L b 的一台主机时， 
由于 N b 事先收到来自于 N a & 可疑信息包，并提升了关于该可疑事件的可疑置信度， N b 立即 
报告了该可疑事件。从而可以看出，信息交换引擎在多 NIDU 协同工作，快達发现攻击方面 
是有突出效果的。 

3.3 分析决断引擎检測效果 

我们采用四台曙光机搭建了測试环境，作用分别是攻击，被攻击，检測 （ NIDU ) 和发送 
背景流量，并通过专用硬件发包机 SmartBits 发送干扰数据。为了能体现实际效果，我们采用 
事先在校园网上录取的真实数据作为背景流量，利用 HGod 作为 DoS 攻击工具来检测分析决 
断引擎的检測效果，得到的检測结果如图6所示。在图中的攻击开始时刻，由于网络流量的 
分布情况产生突变，相关度曲线出现一个明显的下凹。据此，我们能够很容易的发现网络异 
常，通过进一步分析，还可以定位到产生异常的具体目的 IP , 从而得到更为详尽的检測结果》 


攻击开始时刻 
图6 DoS 检測结果 

4相关工作比较 

本文的侧重点虽然是网络入侵检測系统中自治节点的设计，但其对等式的架构可以很容 
易的扩展为一个大规模的网络入侵检測系统。 

NIDU 的一个独特之处在于基于半轮询驱动的数据采集引擎，它通过精简的用户級通信 
协议，完全旁路操作系统，实现了网络设备到用户区的最短报文传输路径。并在此基础上拓 
展了半轮询驱动的概念，有效的降低了系统中断频車，在保证原有性能的前提下，使得系统 
的短报文处理能力得到了较大提高。同现有的 Libpcap , KLMP 和 MMUC 相比，基于半轮询 
驱动的数据采集引擎具有更高的网络数据捕捉性能，为提高整个入侵检測系统的效率提供了 
有效保從。 

NIDU 的另一个特点是分析决断引擎。大多数基于规则的网络入侵检测系统对 DoS 和 
DDoS 攻击的检測技 术是： 使用特定端口、柄志位、数据内容描述攻击特征。然而随着攻击 
工具迅達发展，所使用的端口可以轻易地被用户改变，而且攻击目的也变为简单的消耗网络 
资源。对这类的攻击，仅靠简单的规则匹配显然不能解决问题。本文从攻击对网络流量分布 
的影响着手，通过相关度巧妙的刻画网络流量的变化程度，并依此进行异常检測，很好的解 
决了上述问题。因此，基于相关度的分析决断引擎对 DoS , DDoS 攻击的检測效果较现有方 
法有明显的改善，大量的实验也证明这一方法是行之有效的。 
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5结论 

本文针对网络入侵检測系统的特点，设计并实现了网络入侵检測单元 NIDU ， 通过半轮 
询驱动机制以及基于相关度的异常检测方法， MDU 具有高效的网络数据捕捉性能和明显的 
DoS , DDoS 攻击的检测效果。另一方面， NIDU 可以很容易的扩展并应用到大规模网络，从 
整体上提高大流量网络环境下入侵检測系统的性能。 
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基于图像内容过滤的防火墙技术综述 

董开坤，胡 铭曾，方滨兴 

( 哈尔滨工业大学国家计算机信息内容安全重点实验室 . 黑龙江哈尔滨 150001) 

摘要：介绍了基于图像内容过滤的防火墙技术的研究现状，给出了典型的防火墙系统结构，对 
其中的关鍵技术进行了分析、讨论。 

关 健词： 防火墙；图像内容；网络安全 
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A survey of firewall technology based on 
image content filtering 

DONG Kai - kun , HU Ming - zeng , FANG Biii-xiiig 

(National Computer Information Content Security Key Laboratory, Harbin Institute of Technology, Harbin 150001, China) 


Abstract: Ill this paper, status quo of firewall technology based on image content filtering is introduced 
Typical firewall system architecture is given, and key techniques of the system are analyzed and 
discussed. 

Key words: firewall; image content; network security 


l 引言 


随着网络互连程度的不断扩大， Internet 用户持续、快速的增加，网络安全日益成为关 
系到国家与社会安全的一个重要问题。各种不良、反动以及涉及国家安全保密的信息，越 
来越多地借助于互连网络这种跨地域、跨国界、开放式的通讯方式进行传播。为了解决这 
一问题，除了通过立法打击这些违法和犯罪行为，对网络信息进行必要的技术监測和过滤 
也是一种重要的手段。防火墙技术是网络安全中一项广泛应用的技术，是当今网络安全的 
主流技术之一。传统的防火墙系统主要是基于 IP 地址或 URL - 即事先将需要进行访问控制 
的 IP 地址或 URL 保存于访问控制列表 （ ACL ) 中，通过查表实现访问控制。这种方法的 
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缺点是不能适应 Internet 的迅達发展和动态变化，需要定期地更新访问控制列表，补充新的 
数据项，刪除废弃的数据项，具有明显的滞后性。美国国家研宄委员会的白皮书称 ， Internet 
上仅色情网站每天就有 300-400 个新的网站出现[ 1] ，而 Internet 规模的迅達增长，使不良网 
站和网页的及时发现愈发困难。根据搜索引擎 Google 主页上提供的数字，目前其可以搜索 
的网页超过24亿张，而可以肯定的是，这也仅是 Internet 上全部网页的一部分，并且这一 
数字还在迅達地增加。要对如此巨量的网络信息进行检查，以确定哪些是不良的，即使是 
借助于自动发现软件工具和超級计算机强大的计算能力，也需要一定的时间周期。为实现 
不良网络信息的实时发现和过滤，人们提出了基于内容的动态监測和过滤技术，表1列出 
了目前国际上一些主要的基于内容的不良网站（网页）过滤软件及其应用的过滤技术[ 2 ^]， 
其中，符号+表示其前面和后面的过滤技术在某一软件中同时采用，方括号 [] 表示其中的过 
滤技术仅在某些软件中采用。 

表1 基于内容的不良岡站（网页）过滤软件及其应用的过滤技术 

软 件 应用的过滤技术 


Cyber Patrol , CYBER sitter. Net Nanny, Cyber Sentinel, Surf "Watch, Bess, Stop Watch , 基于文本信息 + 基于 URL 控制列表 
Websense, We-Blocker, lWatch, Cyber Snoop, Daily Blast, I-Gear, IF-Filter, NetFilter, 

Net-Rated, Surf Control, WebChaperone, Mayberry USA 


BAIR, POPJSTsweeper, He arts oft Gauntlet, eVe, Image -Filter, MorphoBlock, Naked People 基于图像内容 [+ 基于文本信息 ] [+ 
Finder, WIPE 基于 URL 控制列表 ] 


目前，大多数实际应用的基于内容的不良网站（网页）过滤软件主要是通过网页中文 
本信息的截取和分析实现过滤功能。与单纯依赖 IP 地址或 URL 访问控制列表的网络过滤 
技术比，基于文本信息的过滤技术可以实时地过滤网络中的不良信息，实现对电子邮件、 
聊天室等网络信息的过滤〃不过，这一技术也有其明显的局 限性： 1. 很多词汇具有多义性， 
仅凭某些关键调的出现就断言某一网页是不良的常常会导致一些正常的网络信息被屏蔽。 
基于上下文的方法，建立复杂的判定规则，例如某些敏感词汇在一定距离内的组合出现， 
或为一定范围内某些关鍵词的出现设定一个判定阈值，可以在很大程度上減少误判（将正 
常信息判定为不良）的发生，但也可能导致漏判（将不良信息判定为正常）的发生。2.— 
些不良网络信息的提供者采取了回避某些敏感词汇，将文本嵌入到图像文件中，或直接以 
图像文件的形式出现等方法，从而可以轻易地通过防火墙等网络过滤和监測 系统。 与此同 
时，随着多媒体技术的进步和网络带宽的显著提高，互连网络中图像和视频信息所占的比 
重越来越大。目前， Internet 上每年新增的图片数超过800亿[ 5] ,其中不乏一些有害的不良 
信息。卡内基梅隆大学的一项研究显示， USENET 新闻组中存储的数字图像有 83. 5%含有 
淫秽内容，尽管其他学者对这一研究的客观性提出了质疑但各类不良图像信息在互连 
网络上的大量传播却是不争的事实。因此，只有针对图像的内容进行分析和理解才能从根 
本上解决目前的网络安全技术对图像和视频信息处理能力不足的问题。与其他领域的图像 
检索任务比，应用于防火墙系统的图像分类技术在两个方面有较严格的要求，一是准确性 
高，漏判的发生将使防火墙形同虛设，而误判的发生则会直接导致用户的正常信息被屏蔽， 
用于网络管理时，就会侵犯用户的正当 杈益； 二是实时性强，必须在不影响网络正常运行 
的前提下，实现在线监測和过滤。 
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2国内外相关技术的研究现状 


针对目前的防火墙系统对网络中图像和视频信息处理能力不足的问題，国内外的一些商 
业公司和研究机构开展了相关技术的研究 [7] 。 

BAIR (basic artificial intelligence routine ) 是 Exotrope 公司研制的基于肌肤色调和形状特 
征，利用神经网络技术实现的不良图像过滤软件。 Exotrope 称，在同时利用网页中文本和图 
像信息的情况下， BAIR 的准确率（正确判定的图像数占全部图像总数的比率）可达99.8%! 
但来自 Wired News 的測试结果显示，在没有文本信息可用时， BAIR 的误判率很高，会阻拦 
全部测试图像的90〜95%,而在通过的图像中，大约有50%是不良的，其余则是正常的 P ]。 

为了检查电子邮件附件中的图像是否含有色情内容， Cleaiswift 公司的图像识别软件 
PORNsweeper 首先检測图像中肌肤色调的含量，如果超过一定的比例，再利用人脸识别技术 
判断其是否是一幅正常的人脸图像，如果不是，则判定为色情图片。 Cleaiswift 公司称 
PORNsweeper 的不良图像正确识别率（将不良图像判定为不良的比率）可以达到85%,而误 
判率为15%.不过来自 Dan ’ sData 的性能评价在认同其不良图像正确识别率的同时，认为其 
误判率要高得多，达50%[ 3 ]。 

Heartsoft 公司在其儿童网络浏览器中应用了一种代号为 Gauntlet 的图像过滤技术，主要 
是基于肌肤色调和曲线检測， Heartsoft 声称其算法应用了 NASA (美国国家航空和宇宙航行 
局）在20世纪80年代研究的人工智能技术，准确車达99.6%[ 9 】》 

eVe(evision visual engine ) 是 eVision 公司开发的图像、视频搜索引擎[ 10 ]，可用于不良图像 
信息的检測和过滤，其实现过程分为三步： 1. 肤色过滤，基于颜色和纹理特征判断图像中是 
否存在大的皮肤区域，如果存在，转第2步，否则判定为 正常； 2. 分割图像，计算皮肤区域 
的视觉 特征； 3. 特征比较，计算待判定图像的视觉特征与预先求出的基准图像集的视觉特征 
的相似度，如果有任一相似度超过70%.则判定为 不良； 如果有某一相似度在40-70%之间， 
则暂时搁置，由人工 判定； 如果相似度均在40%以下，则判定为 正常。 显然， eVe 的性能与 
算法中的阈值设定有关。 

Image - Filter 是 LTU 公司的实时图像、视频流内容分析软件[ 11] ，其算法首先提取形状、 
颜色、纹理等图像特征，得到一组特征数据，然后根据这些特征数据以及需要过滤的图像种 
类对图像进行 分类。 LTU 称，来自其他机构的性能评价认为， image - filter 可以过滤掉96%的 
色情图像。不过， LTU 没有给出相应的误判率，事实上，对于大多数图像过滤软件，降低敏 
感度的判定阈值，可以大幅度地提高不良图像正确识别率，但误判率也会急剧增加。 

Moipho 是由来自加州大学巴巴拉分校和斯坦福大学的研究者们创办一家软件公司，其不 
良图像和网站过滤器 MoiphoBlock 综合运用了 URL 控制列表、文本分析及基于感知的图像 
分析技术，准确率达95%。进行图像分析时，使用了 150个以上的参数，可以区分出色情裸 
体图片与艺术作品、医疗信息中正常的裸体图片[ 4] 。 

Naked People Finder 是衣阿华大学 M . M . Fleck 教授与加州大学伯克利分校 D . A . Forsyth 
等人研制的不良图像搜索引擎[ 12 ],该软件完全基于图像内容的分析，其不良人体图像检測算 
法分为 三步： 1 . 检測图像内是否存在无纹理且具有皮肤颜色的大的区域； 2 . 在皮肤颜色区域 
内，寻找圆柱状投影区； 3.将圆柱状投影区聚合成可能的人体肢体，并将这些可能的人体肢 
体依据其结构和相互间的空间关系进行连接，如果图像内存在足够的可能是人体肢体的区域， 
则判定有不良人体目标存在。该算法在有565幅不良图像和4289幅正常图像的数据库中，正 





确检測出 241 幅不艮图像，同时将182幅正常图像判定为不艮图像，不艮图像正确识别率为 
43%.误判率为4%。 

斯坦福大学 James Z Wang 等人研制的在线图像分类系统 WIPE (wavelet image 
pornography elimination ) 在相关研究中非常具有代表性 [13] » WIPE 由图标过滤器（如果由 
Internet 下载的图像的任意一个边尺寸足够小，则认为是图标图像，判定为正常）、图形图片 
检測器（如果图像是以文本、图形或覆盖图为主的图形图片，则判定为正常）、颜色直方图过 
滤器、纹理过滤器以及一个基于小波的形状匹配算法组成。匹配算法应用的语义特征向量包 
括21个中心矩，7个不变矩。进行图像分类时，如果陌生图像不能由图标过滤器、图形图片 
检測器、颜色直方图过滤器及纹理过滤器判定为正常图像，则计算其矩特征向量，并以欧几 
里得距离作为相似性測度，与事先确定的基准数据库中的特征向量进行匹配，如果陌生图像 
与基准数据库中的某一不良图像是匹配的，则判定其不良，否則判定为 正常。 在有1076幅不 
良图像和10809幅正常图像的实验測试中， WIPE 的不良图像识別率为96%.误判率为9%。 

国内的一些单位也开展了相关的研究工作，具有代表性的是东北大学软件中心提出的基 
于图像内容过滤的智能防火墙系统[ I 4 】。该系统采用了基于 Daubechies 小波与正則中心矩相结 
合的轮廓特征抽取技术和基于多智能的特征检索技术，实现了基于语义的特征向量匹配，系 
统的不良图像正确识别率达95.2%,误判率为10.7%。 

需要指出的是，上述过滤软件的性能数据与測试图像的选择有很大的关系，目前，这一 
技术的研究水平还没有达到实用防火墙系统的要求。其中，一个最为重要的原因是，现有的 
不良图像判定算法一般依据的是图像的颜色、纹理、形状和轮廓等低級特征，这些特征通常 
不能全面、准确地描述图像的高級语义，而人类对于某种不良图像的判定，例如色情或暴力， 
依据的是图像表达的高級语义，一般是建立在人类已有知识的基 础上。 因此，现实可行的方 
法是将这一技术作为访问控制列表和文本分析技术的补充，应用于防火墙系统中。 

3基于图像内容过滤的防火墙系统结构 

典型的基于图像内容过滤的防火墙系统结构，如图1所示。 


部两^ ) u 

图 1 基于图像内容过滤的防火墙系统结构 

与通常的防火墙系统一样，数据提取模块在内部网络和外部网络 （ Internet ) 之间的接口 
位置（网关或路由器）进行数据截取和协议分析，提取出正在传输的数据。系统首先通过查 
找访问控制列表 （ ACL ) 来确定是否转发，如果数据传输的源或目的地址不在 ACL 中，則分 
析其中的文本信息，以判断是否是需要屏蔽的不良信息，如果仍然不能确定，則需要分析和 
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理解其中的图像的内容，以确定是否转发。系统的特征提取模块提取出图像的特征，然后提 
交给特征匹配模块。为了监測和过滤不同神类的图像对象，需要事先收集一定数量且具有代 
表性的相应类的样本图像，结合一定的先验知识，提取出能够描述该类图像本质特征的特征 
数据，保存在相应的基准特征库中。网络管理人员可以配置防火墙系统，选择不同的基准特 
征库，实现对不同种类的图像对象进行过滤。特征匹配模块在收到特征提取模块提交的陌生 
图像的特征数据后，根据特征库的选择，在相应的基准特征库中按照一定的相似性測度进行 
特征匹配，特征匹配的结果一方面要传递给网关或路由器确定是执行转发还是丟弃，同时也 
将保存在结果库中，系统能够根据结果库中的记录，依据一定的规則，对 ACL 和基准特征库 
进行更新，结果库中的数据记录还将进一步被用来对系统的性能进行分析和改进。 

4关键技术分析和讨论 

在基于图像内容过滤的防火墙系统中，用来描述图像内容的图像特征的选择和提取，基 
准特征库的建立，刻画图像特征间相似程度的相似性測度的选择以及进行图像特征检索时应 
用的索引技术，是影响系统性能的四项关键技术。 

4.1 图像特征提取 

所谓的图像内容就是图像蕴涵的语义。近年来一些学者开展了有关图像高級语义理解的 
研究 [ is .〗 6 ], 但与实用防火墙系统的要求比，还有相当的差距，因此目前的图像过滤技术通常 
是基于图像的低級特征。选择用哪些图像特征来描述需要过滤的图像类的本质属性，将直接 
影响系统的性能。从图像处理的角度，图像特征可以分为基本（空域）特征和变换特征两类。 
用于图像内容的过滤，常用的基本特征包括颜色、纹理、特征点、边缘、形状和轮廓等。变 
换特征是基本特征进行各种变换后取得的具有特殊性能的新特征，常用的变换有傅立叶变换， 
K-L 变换， Hough 变换及小波变换等。从目前 QBIC (query by image content . 基于图像内容 
查询）技术的研究现状看，可以分为基于颜色特征、基于纹理特征以及基于形状和轮廓特征 
三类基本的方法。 

相对于其他特征，颜色特征非常稳定，对于旋转、平移、尺度变化，甚至各种形变都不 
敏感，表现出相当强的鲁棒性，而且颜色特征计算简单，因而应用广泛。典型的基于图像颜 
色特征分类的方法有直方图交叉法、直方图距离法等，此类方法利用图像中的颜色和出现这 
种颜色的概率之间的关系，能够很好地表示图像的全局颜色信息，其缺点是对图像语义信息 
表示能力不足，容易出现图像颜色特征相近而语义完全无关的情况，显然，此类方法不适用 
于没有颜色特征的灰度图像。 

纹理特征在人体不良图像过滤等应用中被广泛地采用，通常提取的特征量包括均勾度、 
对比度和方向等，均勾度反映的是纹理的尺寸，对比度反映的是纹理的清晰度，方向反映 
实体是否有规則的方向性。实际上，纹理是图像一个重要而又难以描述的特性，至今还没 
有公认的准确定义。提取纹理特征的方法通常有基于传统数学模型的共生矩阵法、 K - L 变 
换、纹理谱分析等方法和近些年出现的基于视觉模型的多分辩率分析、 Gabor 滤波器、小波 
方法等。基于纹理特征的方法要求被检测的图像对象要具有明显的纹理特征，因而具有一 
定的局限性。 

常用的图像形状和轮廓特征有面积、占空比、宽长比、圆度、边距离、偏心率、主轴方 
向、不变矩、傅立叶描绘子等，利用小波变换抽取目标图像的轮廓特征是一种常用的方法。 
基于形状和轮廓特征的方法一般通用性较强，在现有的基于图像内容过滤的系统中应用较多。 
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此类方法的不足是有的算法需要首先进行图像分割，复杂背景下，有效图像分割变得困难， 
目前尚无通用的适合于所有图像的分割算法。此外，某些特征量受目标形变影响较大。 

为了提高准确性，实际应用中通常采用复合（多）特征检測。一般而言，需要过滤的图 
像种类越多，要求的准确性越高，就需要提取更多、更细致的图像特征，这就会导致描述图 
像特征的数据量和需要完成的计算量的增加，使处理達度降低，因此，图像特征的选择和提 
取实际上是过滤范围、过滤精度和处理達度三者的折衷。 

4.2 基准特征库的建立 

基准特征库中的特征数据，是对所要过滤的目标图像类属性特征的描述，是防火墙系统 
对捕获的陌生图像进行分类的依据，因而基准特征库的设计和实现将直接影响系统的性能。 
为了获得某类图像的基准特征数据，一般首先要收集一定数量的相应类的图像作为样本图像， 
样本图像的数量要充分，同时必须具有代表性。接下来的工作是提取样本图像的特征，得到 
一组样本数据，最后利用样本数据，应用一定的学习、训练算法，获得相应类图像的基准特 
征数据。目前最常用的学习、训练算法是基于神经网络实现的各类 算法。 为适应 Internet 的 
迅達发展和动态变化，还要定期或动态补充新的样本图像，进行学习、训练，对基准特征库 
进行更新和升級。 

基准特征数据通常是高维特征空间中的向量，向量的维数由上节中图像特征的选择和提 
取过程确定，而基准特征库中特征向量的多少则由需要过滤的图像种类、过滤精度和处理達 
度要求共同决定。为了提高检索效率，在保证过滤精度的前提下，应尽可能減少特征向量的 
数目，基于同样的目的，一般将需要过滤的不同种类图像的基准特征数据放置在不同的特征 
库中，可以通过选择不同的特征库实现对不同种类图像对象的过滤。 

4.3 相似性測度 

常用的图像特征相似性测度有距离测度、相似度和概率测度[ 17 ， 18 】。 

4.3.1 距离测度 

进行特征匹配时，最简单和直接的方法就是计算特征量之间的距离。距离的值越小，表 
示两个特征量越相似。用向量 F = fy \, y 2 ,"' 表示基准特征库中的某一特征量，用向量 X =( ri , 
々，… x „) T 表示新捕获的陌生图像的特征量，以两者间的距离測度成足乃表示特征的相似程度， 
通常采用的形 式有： 

(1) 城市块 (city block ) 距离 

d(x,Y)^\ x -y^\ ⑴ 

z=i 

(2) 欧几里得 ( Euclidean ) 距离 

d(X,Y) = 插 (. v , i ) 2 =[(X-Y)\X-Y)f (2) 

(3) 马氏 ( Mahalanobis ) 距离 

d(X,Y)=[(X-Yf ir\X-Y)] m (3) 

这里假定基准特征量 r 是具有协方差矩阵 s 的正态分布。由于考虑了基准特征量的离散 
程度，因此在满足假定条件的情况下，马氏距离比直接计算 x 与 r 之间的距离具有更优的分 
类能力。 
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4.3.2 相似度 

目前应用较多的相似度測度是归一化积相似度 


S ( X , Y ) = 





X t Y 

'|x||x||r| 


(4) 


其中， || jsii =( x t ^) 1/2 . n ^|=( r T } o 1/2 . 利用相似度描述两个特征量的相似程度时，相似度的值越 
大，表示两个特征量越相似。 

进行图像分类时，为体现各图像特征重要性的不同，常常对上述基本公式进行改进，为 
不同的特征分量賦以不同的杈值，构成加杈的距离測度或相似度測度。从公式 （ 1 ) 至公式 （4) , 
图像特征相似程度的刻画变得越来越细致和准确，但需要完成的计算量也相应变大，与 4.1 
节中图像特征的选择类似，实际系统中使用何种測度，需要在检測精度和处理達度之间折衷 
选择。 

4.3.3 概率测度 

在一些应用场合下，利用变形模板匹配的方法实现基于形状和轮廓特征的图像过滤往往 
十分有效。设 /是一 个变形模板，其中是局部变形的放大因子， e 是 r 相对于原模板旋 
转的角度，$是一个参数集合，表示了模板各局部变形的参数，是局部的位移。定义模板变 
形概率密度函数 p (_ y ,以及衡量模板 r 与捕获的陌生图像中目标图像/差别的能量函数 
E ( T s , exd J )> 此时可以用后验概率尸(义0七40表示模板尸与目标图像/的相似程度，后验概率 
的值越大，表示两者越相似。 

4.4 特征索引技术 

基准特征库中的特征数据，一般是高维特征空间中的向量，在基准特征库规模较大的情 
况下，高效的索引技术，是保证系统实时性的关键。目前常用的方法是采用多维索引技术， 
如吊桶算法、 k-d 树、改进的 k-d 树、优先級 k-d 树、 K - D-B 树、 hB 树、 R 树及其变种 R + 树 
和 R * 树、四又树算法等。通常，这些算法的搜索时间隨特征空间的维数指数增长，隨最近邻 
居的数目线性增长 。消除 或減小特征空间数据结构的区间重叠可以显著改善索引算法的性能。 
应用分布式与并行处理技术可进一步大幅度地提高检索速度[ 14 ’ 19] 。 


5结束语 


与文本信息比，图像和视频信息的内涵要丰富得多，因而进行分析和理解时也会复杂 
和困难得多，现有的基于图像内容过滤的技术大多利用的是图像的低級特征，这与人类在 
一定知识的基础上对整幅图像语义的理解有很大的差别。有关图像的高級语义理解技术， 
还有待于图像处理和模式识别领域的研究者们进行深入的研究，这是提高基于图像内容过 
滤的防火墙系统性能最关键的技术。值得指出的是，近年来，随着多媒体信息隐藏技术的 
出现和发展 [2 D ] ， 一些不法分子为了对抗网络安全监管部门的监測，将一些有害或涉及到国家 
安全保密的信息隐藏在正常的图像、视频、语音等载体中通过防火墙等安全防范系统，起到 
泄密、攻击等破坏作用。这就为网络安全技术提出了新的课題，如何进行防范和抵御，需要 
我们认真加以研究。 
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基于文件标题特征的网络视频去重研究 

郭牧怡刘萍\谭建龙\郭莉 1 

(1. 中国科学院计算技术研究所，北京 100190; 2. 中国科学院研究生院，北京 100049) 

摘要： 提出一种针对剧集类和电影类网络视频的去重技术，根据剧集类和电影类网络视频标题的显著特征，采用精确串和正则表达式匹 
配算法自动提取视频名称，形成以正则表达式表示的视频扩展名，当新视频文件到来时，再次使用正则表达式匹配算法，判断其是否出现 
过，从而实现网络视频的去重。实验结果表明，该方法的查准率可达 97.30%, 查全率可达 93.63 %。 

关 键词： 正则表 达式； 精确串匹配 算法； 网络 视频； 去重 

Research on Duplicate Removal for Network Video 
Based on File Title Features 

GUO Mu-yi 12 , LIU Ping 1 , TAN Jian-long 1 , GUO Li 1 

(1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190; 

2. Graduate University of Chinese Academy of Sciences, Beijing 100049) 


[Abstract] A method for removing duplicates among teleplays and movies is presented. Titles of these network videos usually presents distinct 
features which make it possible to extract videos’ names automatically by means of exact pattern matching and regular expression matching 
algorithms. The extracted names is processed further into regular expressions against which up-coming video titles are matched so as to accomplish 
the goal of removing duplicates. Experimental results show this method achieves an accuracy ratio of 97.30% and a recall ratio of 93.63%. 

[Key words 】 regular expressions; exact pattern matching algorithm; network video; duplicate removal 


i 概述 

随着网络带宽的高速増长，网络上的多媒体内容越来越 
多。根据相关统计数据，截止至2007年12月底，我国使用 
网络视频的网民高达 1.6 亿，相当于每 1.3 个网民中就有一个 
网络视频用户。热点节目同时被大量用户下载、播放和上传， 
导致网络视频的高度重复性，而且使得同一部视频在网络上 
以多种不规范的标题流传，不良网站利用网络传输之便在网 
络上散播内容不健康的视频。这些现象都为网络多媒体监控 
带来巨大的工作量，増加监控难度。 

在大量的网络视频中，剧集类和电影类视频是常见的网 
络视频。调查结果显示，中国网民对网络视频的娱乐性消费 
倾向较重，电影和电视剧是最受关注的内容，以高达86.3% 
的比例远超其他内容。所以，对剧集类和电影类网络视频进 
行去重无疑是一件有意义的事情。 

本文对剧集类和电影类网络视频标题进行特征提取，形 
成去重规则，利用正则表达式匹配和多模式串匹配算法(本文 
使用 Aho-Corasick 算法)自动提取视频的名称，并形成以正则 
表达式形式表示的视频文件扩展名称，当新视频文件到来时, 
再次使用正则表达式匹配算法，判断其是否出现，从而实现 
网络视频的去重。 

2网络视频去重 

在对网络视频做实时过滤前，先采集一部分样本，在离 
线模式下，对视频的 title, tag 或 description 等其他描述性信 
息(本文采用 title, 称为“标题”）进行特征提取，形成去重规 
则。在实时过滤的过程中，去重判别模块利用去重规则，结 
合去重后的视频库中已有的视频记录，对陆续到来的视频进 


行去重，并实时更新去重后的视频库。上述工作原理如图1 
所示。 



图 1 网络视频去重的工作原理 

2.1 去重规则 

为了去重，首先需要从网络视频的原始标题中准确地提 
取视频本身的名称(即 name, “名称”与“标题”是不同的)， 
如标题“【美剧】 英雄 sOleOl” 所对应的名称则是 “英雄”。 
另外，原始标题除了含有视频本身的名称外，通常还包含一 
些无关的、规律性很强的字段。去重规则的目的就是通过规 
则匹配将这些无用字段从视频的原始标题中去掉，实现视频 
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名称的自动提取。 

本文利用手工标注的方法，对这些无用字段进行特征提 
取，总结出2类特 征：第 1类特征表示某视频文件是整部电 
视剧或电影的第 几截； 第2类特征即为常见的描述性词语， 
称为“停用 词”。 对以上2类特征分别进行形式归纳和举例。 

(1) 第1类特征形式 归纳： 

1) 第十一集、第1回、第10话、第八、第6; 

2) partA , part _ a , parti , cdl ; 

3) Season 2, episode 20, s 01. e 02; 

4) ( 上)、 < a >、 （十七)、 <17/23>; 

5) 名称末尾还可能带有单个英文字母、数字或若干无用 
字符，如皇家赌场 a 、 皇家赌场 b 、 非诚勿扰1、非诚勿扰__。 

(2) 第2类特征(停用词 燁例： 

美剧、韩剧、热播、经典、爱情片、动画片、惊悚、动 
作、浪漫、喜剧、……。 

针对以上2类特征，形成2类去重 规则： 第1类特征有 
多种变型，具有强大表述能力的正则表达式是处理这类特征 
的好办法；第2类特征使用停用词库予以处理，包含约 
80个常见的停用词。对于停用词库，简单易懂，无需赘述。 
这里主要讨论正则表达式规则。 

正则表达式强大的数据特征表述能力带来极大的应用价 
值， L 7- filter 使用正则表达式对应用层的数据包进行分类， 
文献 [1] 使用正则表达式表示自动提取的病毒特征。本文涉及 
的正则表达式元字符在文献 [2] 中均有详细介绍，关于正则表 
达式的匹配原理请参考文献[3]。 

表1列出了用于处理第1类特征的正则表达式规则库， 
它包含8条正则表达式。 


表1正则表达式规则库 



与第 1 类特 

规则编号 

正则表达式规则 

征形式归纳 



的对应关系 

] 

第 ? [0-9 零一二三四五六七八九十百]+[部话集 



回季 ]([ 上中下 a-z])? 


2 

第 [0-9 零一二三四五六七八九十百 ]+ 

1) 

3 

part.?([a-z]|([0-9]+)) 

2) 

4 

(S|E|Season|Episode|CD).?[0-9]+ 

2), 3) 

5 

刚 【】 ()()<>«»\-_.] [ 上中下 a-z 腳 ]【】 ()()<> 

4) 


«» ][$) 

[\W 【】（)()<> «»\ 二+][零一二三四五六七八九 4 
十百 ./0-9-]+([\[\]【】 ()()<> «» ]|$) * 

7 [ A a-z][a-z]$ 5) 

8 [/0-9\[\] [] ()()<> «» ]+S _ 5) 

2.2 去重判别 

在去重判别过程中，程序将自动提取视频的名称，并对 
视频名称进行正则表达式扩展，形成扩展名称，通过将新采 
集的视频标题与数据库中已有的扩展名称相匹配以达到去重 
的目的。 

2.2.1 视频名称的自动提取和扩展 

本文使用不同的匹配算法处理 2.1 节中提出的2类去重 
规则。对于正则表达式规则，使用具有捕获功能 [2] 的正则表 
达式匹配算法将原始标题中与某正则表达式规则匹配的部分 
替换为下划线(也可以替换为其他字符，如空格，这样做是为 
了方便之后对自动提取的视频名称进行正则表达式扩 展)； 对 
停用词库，使用多串精确匹配算法 ( AC 算法) [4] ,将视频的原 
始标题中出现的所有停用词替换为下划线。例如，“皇家赌场 

_ C dl . par t . l ” 将最终被处理为“皇家赌场_ ”； “【美 

剧】老友记(六人行) sOleOl ” 将被处理为“【_】老友记(六人 
行)_”。 


经过处理后的视频名称，还包含很多无用的字符，如空 
格、下划线、方括 号等。 在本文的解决方案中，无用字符集 
包括了中英文常用符号约40个。这些无用字符将视频名称分 
割为若干子段，将这些子段用空格进行连接，即得到视频的 
最终名称；将它们用进行连接，即得到视频名称的正 
则表达式扩展名称。对于上面2个例子，“皇家赌场 

_”自动提取的名称和扩展名称分别为“皇家赌场” 

和“皇家赌 场”； “【_】老友记(六人行)_ ”自动提取的 

名称和扩展名称分别为“老友记六人行”以及“老友记. 
* 六人行”。 

2.2.2 去重算法 

去重算法描述如下，其中， S regexp 和 S V i dec> _ name 分别表示 
正则表达式扩展名称的集合和自动提取的视频名称的集合， 
图1中去重后的视频库即为 S rcgex p 和个 部分： 

Stepl 初始化 S rcgexp 和 S videc ) _ name 分别为空。 

Step2 从服务器读取一个视频标题，记为 video _ title 。 

Step3 取得 S re g exp 中所有能与 videojitle 匹配成功的正 
则表达式，结果记为 Smatched_regexp 0 当然，在匹配过程中，对 
于英文字母，不区分大小写。 

Step4 SS matehed regexp 为空，说明该视频未被采集过，则 
执行 Step 5, 否则，执行 Step 2。 

Step5 用 2.2.1 节中的方法从 videojitle 中提取视频名 
称，记为 extracted _ name , 生成正则表达式扩展名称，记为 
reexto 

Step6 判断 extracted name 是否合法。为了避免由于自 
动提取的视频名称过短而带来过髙的误报率，使用以下标准 
判断所提取的名称是否合法 。 extracted name 是合法的视频名 
称需要满足以下4个条件 之一： 

(1) 至少包含5个 Unicode 字符； 

(2) 包含4个 Unicode 字符，且不全为数字； 

(3) 包含3个 Unicode 字符，且至少有1个是汉字； 

(4) 包含2个 Unicode 字符，且都是汉字。 

如果 extracted name 是合法的名称，执行 Step 7 ,否则， 
认为不能识别这是哪部视频，将其舍弃，执行 Step 2。 

Step 7 将 extracted name 和 re ext 分别添加 S matched name 
和 S re g ex p 中，执行 Step 2。 

以上算法看似已经能够胜任视频去重的任务。但它有时 
依然不能准确地提取网络视频的名称，如 videojitle 为“【美 
剧】【六人行】安妮斯顿主演 _ S 01 E 01” 时 ， extracted name 
和 re _ new 分别为“六人行_安妮斯顿主演”和“六人行 .* 安 
妮斯顿主 演”； 若后续到来新的标题“六人 R _ S 01 E 01”， 新 
标题将由于不能匹配“六人行 .* 安妮斯顿主演”而被误认为 
是另一部视频。类似的情况导致 S videc name 中存放同一部视频 
的多个不规范名称，所以，算法并不能达到去重的目的。 

另外，有些视频可能有不只一个中文译名，当不同的译 
名出现时，上述算法亦不能做到自动关联。导致 S vide() _ name 中 
存放同一部视频的多个不同译名。设想 S ragexp 包含有扩展名 
“老友记 .* 六人行”，相应地， S vide 。 name 包含有“老友记 
六人行”；若有新的视频标题“【美剧】【老友记 I sOleOl ” 到 
来，很明显， ^matched_regexp 为空，自动提取视频名称为“老友 
记”，那么 ，“ 老友记”将被作为一部新的视频添加入 S vide „_name ； 
同理，对于新的视频标题“【美剧】【六人行】 sOleOl ", 最终 
也由于 S matched_regexp 为空而把“六人行”添加入 s videoname ； 
而事实上，“老友记”和“六人行”是同一部电视剧 ( i 国著 
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名电视剧 Friends ) 的不同中文译名。 

2.2.3 改进的去重算法 

只需要对 Step 7 进行改进就可以成功处理网络视频标题 
不规范以及同一部视频对应多个译名的情况。 

Step 7( 改进）将 S vide () _ name i ^ 所有与 re ext 相匹配的视频 
名称记为集合 Smatched_name 0 

若 s matehed name 为空，将 extracted name 和 re ext 分别添 
加 S ma tehed_name 和 ^regexp 中，执行 Step 2。 否则，从 Smatched_name 
中任意挑选一个名称，记为 matched _ name , 令 S video _ name = 

(Svideo_name-Smatched_name) U {matched—Iiame} ， S re g eX p—S re g eX p U {re 一 

ext }, 执行 Step 2。 

对 Step 7 进行上述改进后，不规范的视频标题将不会对 
去重带来干扰，而且同一部视频的不同译名也将成功得到关 
联。但值得注意的是，这种改进可能使2部原本不同的视频 
被误认为是同一部视频，如“英雄”（美国电 视剧) 可能会与 
“射雕英雄传”被误认为是同一部视频，从而产生“过去重” 
的负面效应。但从第3节的实验中将看到，这种负面效应是 
很小的，相对于 2 . 2.2 节中的算法，这里的改进在略微牺牲查 
全率的基础上，大大提升了查准率。 

3 实验及结果分析 

实验1通过手工标注的方法统计去重算法的查全率和查 
准率，验证算法的有效性。实验2通过对七万多条网络视频 
标题进行大规模去重，并在去重过程中加入计数的功能，验 
证网络视频的长尾分布特性。 

实验1去重算法的查全率和查准率 
从网络上采集6 300个剧集类和电影类网络视频标题， 
共包含769部视频，以此作为本实验的测试数据集。利用 
2.2.2 节中的去重算法和 2.2.3 节中的改进算法分别对该数据 
集中的视频标题进行去重。记去重后得到的视频名称总个数 
为 N , 邮,， 其中，正确的视频名称个数为则有 

杳令率 = "correct 
一午 769 

查准率 = ^correct 
^ total 


去重算法的查全率和查准率结果比较如表2所示。 
表2 去重算法的査全率和查准率比较 


去重算法 N lolal 

N correct 

查全率/(%) 

查准率/(%) 

原始算法 987 

741 

96.36 

75.08 

改进算法 740 

720 

93.63 

97.30 


从表2可以看到，在查准率上，改进后的算法相对于改 
进前的算法具有明显的优势。它能够自动关联同一个视频的 
不同名称，大大提升了查 准率； 而改进前的算法，由于 
S videl ) _ n 胃中包含了同一个视频的多个名称，严重降低了查准 
率。 在查全率上，虽然改进后的算法逊色于改进前的算法， 
但两者之间只有2.73%的差距，这也说明了过去重的情况只 
是少数现象。 

改进前的算法所没有查到的视频，主要有2个 原因： 
( l ) extracted _ name 过短，不符合合法视频名称的判别标准， 
最终被舍弃,如韩国电视剧《宫》； (2) video _ titl e 稀奇古怪, 
如“狂野时速7—③”，去重规则不能将末尾的 “7—③”捕获 
并去掉，导致“狂野时速7—③”、“狂野时速7—⑤”等分別 
被视为不同的视频存入 S video _ name o 改进后的算法没有查到的 
视频，除以上2个原因，则 i 由于过去重，漏掉了少数视频。 

改进后的算法查准率之外的2.71%误差，主要原因是某 


视频的同一个译名有多种不同的写法，例如，日本动画片《艾 
莉森和莉莉亚》(属于剧集类视频)还可以写成 <〈艾莉森与莉 
莉亚》,导致它们被视为不同的视频存入 S vidroname 。 原始算 
法查准率之外的误差，除了上述原因之外，主^是网络视频 
标题的不规范性导致同一部视频在 S vldeo _ name 中存放了多个 
名称。 

实验2网络视频的长尾分布特性 
网络视频具有长尾分布的特性 [5] ,本文的去重算法能够 
通过记录每部视频的采集次数对此特性进行明确验证。因此， 
只需将算法中的 Ste P 4 和 Ste P 7( 改进后的)稍加改动 如下： 
Step4 若 S matehed regexp 为空，则说明该视频未被采集过， 
执行 Step 5; 否则，说明该视频曾经被采集过，记 S matched_regexp 
中长度最大的正则表达式为 matched regexp , 将 matched _ 
regexp 所对应的视频采集次数加1,执行 Step 2, 继续处理下 
一条视频。 

Step7 将 S vide() __ e 中所有与 re_ext 相匹配的视频名称记 

为集合 Smatched_name 0 

若 S matched name 为空，将 extracted name 和 re ext 分别添 
加 S ma tched_name 和 S re g ex p 中， "p ■己 cxtracted_name 所对应的视频 
采集次数为 1, 执行 Step 2 。 若 Smatched_name 非空，从 Smatched_name 
中任意挑选一个名称，记为 matched name 。 令 S video name = 

(S video_name ■ S matched _name) U { matched _ iianie } ， S re g eX p—S re g eX pU { re _ 

ext } ，将 match_name 所对应的视频采集次数加1，执行 Step 2。 

从网络上采集73 000个剧集类和电影类网络视频标题， 
以此作为本实验的测试数据集，采用 2.2.3 节中改进后的去重 
算法，对数据集中的视频标题进行大规模去重，并在去重过 
程中加入上述计数功能，结果如图2所示。 



图2网络视频的长尾分布 

去重结果显示 ， 73 000个视频经过去重后，得到的 
S vito _ name 集合大小为3 543,其中,采集次数超过100的视频, 
只占 S vldM _ name 的3.42%,采集次数少于100的视频占视频总 
数 (73 000) 的60%。另外，还可以看出， 2.2.3 节中提出的去 
重算法还可以用于网络视频热点的发现。 S video _ name 中所包含 
的3 453部视频，采集次数位列前5的视频如^ 3所示。 


表3 采集次数位列前5的视频 


视频编号 

视频名称 

采集次数 

1 

火影 

1 590 

2 

柯南 

1 333 

3 

海贼王 

813 

4 

越狱 

791 

5 

死神 

790 


4结束语 

本文针对剧集类和电影类网络视频，提出一种基于视频 
标题的去重 算法。 实验表明，该算法的查准率达到97.30%, 
查全率达到93.63%。通过在去重过程中加入计数的操作，记 
录每部视频的采集次数，该算法成功验证了网络视频的长尾 
分布特点，而且可以用来发现网络视频的热点。 
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对等点播系统中节点搜索机制研究 
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摘要 对等点播系统 ( P 2 P - VoD ) 中的跳转操作需要高效的节点搜索，如何快速查找到“合适”的节点是个挑战. 
“合适”包含两方面因素：（1)内容匹配； （2) 物理性能匹配.而传统的方法大部分只涉及对前者的研究.文中提出了 
一种层次化的搜索模型（简称 Mediacoop )， 不仅可以让搜索到的节点在内容上满足要求，而且在物理性能上也能满 
足要求.具体而言， Mediacoop 首先利用播放距离来索引全部节点，再利用延迟特征优选内容上已经符合要求的节 
点.在 NS 2 模拟器上的实验表明， Mediacoop 在用户体验和系统开销上均优于传统的方法.同时，在实际系统 
CoolFish 中的部署和运行也验证了 Mediacoop 的实用性. 

关键词 对等； 视频 点播； 节点 搜索； 流媒体 
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Lookup Mechanism for Peer-to-Peer V ideo - on - Demand 

ZHANG Tie-Ying 1 ) LIU Yue 1 ) ZHONG Yun-Qin 1 )， 2 ) CHENG Xue-Qi 1 ) 

{Institute of Computing Technology , Chinese Academic of Sciences ， Beijing 100190) 

2) {Graduate University of Chinese Academic of Sciences » Beijing 100190) 

Abstract A fundamental challenge in P2P-VoD system is how to provide random seeking func¬ 
tion. To address this problem, in this paper，we propose Mediacoop, a novel structured lookup 
service which can find peers to provide required data with good quality. In Mediacoop，we exploit 
the unchanged playpoint distance between neighbors to avoid publishing large number of sharing 
messages. In addition, Mediacoop considers the underlying network in order to find close suppl¬ 
ying peers. Theoretical analysis and extensive simulations show that Mediacoop outperforms tra¬ 
ditional methods with less overhead. We have also implemented a real-world P2P system based on 
Mediacoop，called CoolFish. The running results also prove the effectiveness of our design. 


Keywords Peer-to-Peer ； Video-on-Demand ； peer search ； streaming 


i 引言 

随着互联网宽带接人的普及，对等视频点播服 
务 （P2P-VoD) 已经成为了最流行的互联网应用之 
―乎 点播的最大特点在于用户可以随意跳转，即从当 


前位置跳转到前面或者后面进行观看.但是，跳转到 
新位置后，当前邻居节点很可能没有所需数据，造成 
了邻居节点的失效.因此，我们的目标是如何快速高 
效地查找到“合适”的邻居节点来提供数据. 

“合适”的邻居节点包含两方面特征 ..—i 是内容 
匹配，即该节点拥有查找者所需内容，这一点也是最 
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基本的要求.二是质量匹配，即查该节点拥有较好的 
物理性能，例如高带宽和低延迟.质量匹配不仅仅是 
查询优化的问题，它对播放质量起到了至关重要的 
作用. Huang [1 ]、 Pucha [2] 以及 Hefeeda 等人 w 均指 
出，邻居节点的物理性能较差是导致无法及时获得 
数据的重要原因.衡量物理性能最重要的两个指标 
是带宽和延迟 [4] ，本文中使用延迟作为衡量指标，因 
为带宽只能在建立连接后通过实际传输的数据测 
得 [3 43 而我们的目标是建立连接前进行节点选择 
(即节点查找），所以带宽这4指标不适用于本文.详 
见第2节和第4节. 

通常，针对 P 2 P - VoD 的搜索方法只涉及内容搜 
索.典型的方法是使用分布式哈希表 （ DHT )， 把缓 
冲好的内容对应的信息发布到网络中等待查询（如 
文献[3,5]).但是，这种方法应用在视频服务中会造 
成大量的网络开销.因为每个节点缓冲的内容是随 
着观看进度发生变化的，节点需要不断地发布对应 
的信息，这就造成了巨大的网络开销.尽管文献 [3] 
作者对节点物理性能方面进行了探索，但是他们提 
出的方法并不能应用在 P 2 P - VoD 中.文献 [6-7] 作 
者提出了非 DHT 的结构化搜索方法以避免大量的 
网络开销，但是他们都没有对节点的物理性能进行 
研究. 

在本文中，针对 P 2 P VoD 的特征，我们提出了 
一个基于结构化的层次搜索模型（简称 Mediacoop ). 
本方法的¥次查找能够同时满足内容匹配和质量匹 
配的双重要求.具体而言 Mediacoop 的查找过程被 
分为两个 阶段： 

(1) 使用播放距离来定位拥有所需内容的节点. 
对于给定影片，各节点的播放速度是相同的，这样，节 
点间的播放距离是不变的（除非节点进行跳转和暂停 
操作).因此，避免了传统方法的巨额网络 开销； 

(2) 把备选节点索引为一个树形覆盖网 ( overlay )， 
该过程是以 AS 域间延迟及 IP 前缀为基础进行索 
引，其结果是能够找到与查询者延迟最小的节点子 
集，以完成节点质量匹配. 

我们在理论上证 明了： 以不低于传统 DHT 的 
查找效率 O ( logN ) , Mediacoop 能够同时完成上述 
两阶段查找.我们在 NS 2 模拟器上做了大量对比实 
验，结果表明 Mediacoop 在启动时间、跳转延迟、播 
放连贯度和网络开销上的优势十分明显.同时，在实 
际 P 2 P-VoD 系统 CoolFish 上实现了 Mediacoop ， 其 
运行结果也验证了算法的实用性. 

本文第2节介绍相关工作;第 3 节描述 Mediacoop 


的基本模型；第4节详细讨论 Mediacoop 的设计细 
节； 第5节给出理论上和实验上的验证结果，并介绍 
实际系统的运行 状况; 第6节对全文进行总结. 

2相关工作 

P 2 P - VoD 网络一般分为树形结构和网状结构 
两类.树形结构被较早提出，但是由于树形结构并不 
适用于动态性很强的 P 2 P 网络，目前主要的研究方 
向集中在网状结构.我们先简单介绍树形结构的已 
有方法 . P 2 CastW 是 — 个典型的单播树系统，它使用 
补丁技术进行数据流分发.然而，在这种分发模型 
中，:一个播放节点只有唯一的父亲节点提供数据，这 
对于异构网络来说是远远不够的.另外，在动态性很 
强的 P 2 P 环境下维护树形结构是很困难的.作为改 
进， P 2 VoD [9] 把分发树组织为层次结构.当节点离 
开的时候会自动由上层节点替代，新加人系统的节 
点被分配到最低层.但是， P 2 VoD 并没有提出适合 
点播的动态交互操作，例如跳转等.作为网络结构上 
的极大改进，网状结构是目前主要的研究方向. 

PROP 作为网状结构的代表，以 DHT 作为基 
础提供 P 2 P - VoD 服务.在 PROP 中，只要节点获取 
到一个数据块，它便把该数据块的信息发布到网络 
中.当节点需要数据的时候，它先去查询 DHT 获得 
拥有所请求内容的节点，再向这些节点请求数据.这 
种方法带来个严重的问题，在观看过程中，节点收 
到的内容随播放进度发生变化，这样，节点就要不断 
地发布新收到的内容信息.这种频繁的更新消息带 
来了巨大的网络开销.不仅如此，当缓冲区中陈旧数 
据被丢弃的时候，也要发布相应的删除信息. 

PROMISE ™ 在节点的物理性能上进行了探索， 
基于网络带宽提出了一种节点选择方法.在播放过 
程中，它利用实际传输的媒体数据计算邻居节点可 
以提供的可用带宽，从而进行节点的优化筛选.但 
是，这种方法是在节点间建立网络连接后进行数据 
传输的时候进行的，也就是说是此时的资源节点（或 
称为邻居节点）已经存在，目标是进行节点“选择”而 
不是“查找”.因此，物理带宽这一指标并不适用于节 
点查找这种场景. 

和我们工作较为相关的主要是 OBN ™ 和 
RINDY [7J . OBN 减少了上述 DHT 方法带来的网络 
开销，它利用节点间缓冲区的重叠关系构建非 DHT 
的结构化 overlay . 但是，节点物理性能的研究依然 
没有在 OBN 中得以实现. RINDY 使用类似的方法 
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构建了一个多环的查找网络.查询者缩小环形范围 
直至找到候选节点集合，再使用 Gossip 协议定位拥 
有所需内容节点.但是， Gossip 协议会带来较大的 
网络开销并且这种方法依然没有考虑节点物理性能 
上的优劣. 

3 Mediacoop 的系统模型 

本节主要讨论 Mediacoop 的基本思路，具体细 
节设计在第4节中介绍. Mediacoop 的两大中心任 
务：（1)如何提供高效的内容 查询； （2) 如何找到网 
络延迟较低的节点.相应地， Mediacoop 的搜索过程 
分为两个阶段，这两个阶段对应着两个不同的覆盖 
网，基本思想由 3. 1节和 3. 2节分别介绍. 

3. 1 播放点覆盖网 （Playpoint Overlay ) 

本节介绍第1阶段查询的基本思想. 

第1阶段的目标是内容匹配查询，我们把一部电 
影分为 M 个数据块，数据块按播放顺序编号为 
blocks ， block 2 ，… , block m ，每一个数据块对应一个播 


放点.这样，节点 A 的播放点 （ PlayPoinOfTt 定义 
为节点 A 当前正在播放的数据块编号拥有 
相同播放点的节点被归为同一个 swarm (如图 1 (a) 
所示）.对于给定影片，不同节点播放该影片的速度是 
一样的.因此，正常播放情况下，播放点间的距离是不 
发生变化的（除非节点进行跳转或暂停操作).在第1 
阶段，我们的想法是利用播放点距离把全部的 swarm 
索引在一个环上（图 1(b)). 一个 swarm 只要建立好 
索引信息（即路由表），即使在播放过程中，不用更新 
索引也可以获知其它 swarm 当前的状态，如图 2 所 
示.每个节点的路由表存储了其它 swarm 播放点的 
信息(详见 4. 2节），路由表中的每条表项由播放点距 
离计算得出.请求者可以方便地查找到拥有目标播放 
点的节点，整个查找过程类似于著名的 Chord 网 
络 [1 ° ] ，不同之处在于我们使用了播放点距离而不是 
Hash {I. 因此，播放点距离的不变性使得节点不需要 
更新索引信息也获知其它 swarm 的状态.这个特性 
使 Mediacoop 大大减少了网络开销.播放点距离的数 
学定义在 4. 2节中给出. 





(a) 播放点相同的节点归为同一个 swarm ， 节点间的 
播放距离不变除非节点进行 VCR 操作 

图 1 播放示意 


( b ) 所有 swarm 被索引在首尾相接的环上，索引 
信息(路由表)根据播放点距离计算得出 



图 2 播放点覆盖网由节点的路由表构建而成 

3. 2 前缀树覆盖网 （ Prefix-Tree Overlay) 

第1阶段查询的结果我们称之为种子节点，该 
种子节点满足内容匹配要求，在第2阶段中，我们的 


目标是从种子节点出发，找到网络延迟最小的节点 
子集.实际上，第2阶段查询就是在种子节点所属的 
swarm 中进行的，因为根据第1阶段的查找过程， 
最后定位的 swarm 就是种子节点所在的节点集合. 
因此，如何把 swarm 内部的节点索引起来是第2阶 
段的首要任务.因为查询目标是延迟最小，而延迟 
和 AS 域的 IP 前缀又有密切关系 [11] ，我们的基本想 
法是用 IP 前缀把同一个 swarm 中的节点索引起 
来，如图 3( b ) 所示的索引树.这样，由文献 [11] 的方 
法可以获得全局延迟表，根据该表便可得知延迟最 
小的 IP 前缀并作为查询目标，再根据图 3( b ) 所示 
的索引树便可找到属于目标 IP 前缀的节点.具体细 
节将在第4节加以介绍. 



















图 3 层次查找的例子 


4 Mediacoop 的详细设计 

在本节中，首先介绍为何使用网络延迟作为物 
理性能的衡量标准，以及如何探测全网 AS 域间延 
迟； 接下来将详细介绍层次化索引信息（双层路由 
表）的构建，并介绍如何使用路由表进行 查询； 最后 
讨论系统的维护代价和系统开销. 

4.1 节点物理性能的获取 

作为交互性较强的应用， P 2 P 系统对端到端的 
延迟是很敏感的 Ul ] .特别是在点播服务中，用户的 
交互性操作频繁发生（例如启动、跳转、暂停等），如 
果节点间延迟很大，会导致较长的反应时间.国际通 
信联盟 G 114 号文件 [12] 建议，对于大多数交互性应 
用，以 150 ms 作为物理链路上端到端延迟的上限. 
因此，在本文中，采用网络延迟作为衡量节点物理性 
能的指标，以 150 ms 作为端到端延迟的上限.虽然 
端到端延迟可能随时间发生变化，但是十分精确的 
值对我们来说意义并不大.我们只需要记录节点间 
的平均延迟值，选取延迟较小的作为邻居节点.因 
此，我们最关心的是如何获得端到端延迟.实际上， 
互联网是由多个 AS ( Autonomous Systems ) 域组 
成，位于同一个 AS 内的节点距离较近，它们对外部 
AS 表现出的网络延迟相似.不同 AS 间的路由方式 
由边际网关协议 （ BGP ) 指定 . AS 内部又分为更小 
的域 ( Cluster ) ，由 IP 前缀分割开来.这样只需要获 
得域间延迟，选择与查询者延迟最小的域中节点作 
为邻居.我们使用文献 [11] 中的方法获得全覆盖网 
的域间延迟表，这样就可以从该表中获得延迟最小 
的域作为查询目标.该延迟探测方法的概括性介绍 
在下段中给出（更多细节可以参考文献 [11]). 

图4描述了延迟探测的整个过程.首先，可以从 
边际网关协议公共信息提供处获取 BGP 路由表及 
其更新信息，例如从 RouteViews ( http ：// www . 


routeviews . org ) 和 RIPERIS ( http : // www . ripe , 
net / projects / ris ) 均可获取.由这些路由表，可以构 
建整个覆盖网的组成图，其组成单位是以 IP 前缀分 
割的各个域 ( Cluster ). 我们以随机的方式从每个域 
中选取一个节点作为该域的“代表”.任意两个域之 
间的延迟是通过使用工具 Kmg [13] 测量对应“代表” 
的延迟获得.最后得到两个表：（1) IP 与对应的域的 
映射表 （ ICMT ) ; (2) 域与域之间的延迟表 ( CCDT ). 
由 ICMT ， 节点可以获知自己所属的域，再由 CCDT 
获得与其所属的域延迟最小的目标域.表1给出了 
CoolFish 网络 CCDT 的例子.接下来的核心任务就 
是如何把这些域组织起来提供高效搜索. 

表 1 CoolFish 的 CCDT ( 时间： 2009. 09. 02, 15:00) 


延迟/咖 

159.226.40.* 202.127.200.* 210.72.15.* … 


159. 226. 40. * 

0 

31 


8 • 

202.127. 200. * 

31 

0 


58 • 

210. 72. 15. * 

8 

58 


0 • 







P2P 网络中所有节点 

BGP 表一 

4 

IP 前缀提取 


(ICMT) 
P-Cluster 映射表 




(CCDT) 

Cluster-Cluster 延迟表 

King tool 


图 4 域间延迟探测示例 


在本文方法中，所有的域被组织成二叉树的结 
构，每个叶子节点代表一个域.这样，叶子节点的个 
数 K 和全部域的个数是相等的.每个叶子节点以其 
物理地址作为标识（即 IP 前缀），在表现形式上是其 
对应的前缀码.叶子节点1和叶子节点2的距离由 
他们前缀码的异或运算得出.在形式上，距离计算如 
下 所示： 

^ IP prefix (nl , n 2) = Prefix nl ㊉ (1) 

注意，第 1 阶段得到的目标 swarm 中的节点就 
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分散在这些叶子节点中，如果节点稀少会导致个别 
叶子节点为空（如图 3(b) 所示），这样的空叶子节点 
在实际操作中不会被索引起来.有些人可能会提出 
质疑，为什么我们使用树形结构来组织 IP 前缀呢？ 
原因其实很简 单：二 叉树叶子节点的距离计算和 IP 
前缀的距离计算是一致的，都是异或操作. 

4.2 双层路由表的构建 

在 Mediacoop 中 ，一 次查找由两阶段组成，分别 
在两个覆盖网中进行，相应的每个节点的路由表包 
含两个子表，分别是播放点路由表和 IP 前缀路 
由表. 

播放点路由表 ：播放 点路由表存储了其它 
swarm 播放点的信息.以节点的播放点路由表为 
例.该表有 logMCM 是数据块的数量）行，第 f 行 
(0<z<logM) 保存着《个节点的播放点信息，该 a 
个节点与 f 播放距离为 2' 〜 2 H 1 . 播放距离（九一 
九）的定义如 下：顺 时针沿播放点覆盖网（即图 1(b) 
所示的环）九〜九的跳数.其数学的形式化定义表 
示为 

Dplaypoint ( Pi ,pi) = i{PP p 2 — P P p! ) +M)mod M 

( 2 ) 

式中 ， M 是数据块的个数， PPp 是节点 A 的播放点. 
图 5( a ) 给出了播放点路由表的结构.每行记录了 
«=2个节点的信息（这里的« = 2是我们的经验值. 
为了保证路由节点的可用性，建议每条路由表项中 
存储的节点个数大于 1). 


播放点距离 

路由节点 

2° 

IPrPort), p z { IP:Port) 

2 1 





路由表 〆 

/ 

_ 1 _ 

播放点路由表 


IP 前缀路由表 


IP 前缀距离 

路由节点 

2° 

IPrPort), p 2 { IPrPort) 

2 1 





图5节点的双层路由表 


IP 前缀路 由表： 以节点 f 为例，其 IP 前缀路由 
表存储了和自己所在同一 swarm 中的其它节点信 
息 . IP 前缀路由表有 logKCK 是叶子节点的数量） 


行.第 j 行 （0< y < logK ) 保存着/?个节点的 IP 前缀 
信息，该节点与 > 的前缀码距离为 2^2-' 该距 
离的计算方法如式 （1) 所示.图 5( b ) 给出了 IP 前缀 
路由表的结构示意图. 

4.3 查询过程 

内容匹配 查询： 即在播放点覆盖网中进行的 
第1阶段查询，图6给出了该查询算法的伪代码.查 
询过程为递归方式，描述 如下： 当节点 A 收到查询 
消息，它首先根据式 ( 2 ) 计算自己与目标数据块的距 
离 D ，然后该节点从自己的播放点路由表中选出与 
D 最近的节点 B 并把该查询消息转发给 B . 该查询 
结束的条件为：（1)发现节点 C 的距离等于 D , 此时 
节点 C 作为种子节点被 返回； （2) 已没有更近的节 
点可以转发，此时当前节点作为种子节点被返回. 

//计算目标和当前节点播放点距离 
D pp = (( PP p - PP A ) +M) mod M 
route 一 nodes= NULL ； 

// 如 i 当前节点最近则直接直接返回 
if D pp = =0 { 
return Node A ； 

} else { 

// 查询路由表进行消息转发 
Let 

//get_value ( O 返回第 / 项里的节点 
route_nodes=get_va\ue(entry_key )； 
while (route_nodes= = N\Jhl. 

& entry_key^>0) { 
entry _key —； 

route 一 nodes= get_wa\\ie(.entry_key '); 

} " 

// 找到最近节点 
if CroMie_no<ie5! = NULL) { 
forward to route_nodes\ 


// 如果找不到路由节点，返回当前节点 
If =NULL) { 

return Node A ； 


图 6 内容匹配查询算法伪代码 （Node A 收到内容 
查找消息后进行路由的过程） 

质量匹配 查询： 即从第1阶段获得的种子节点 
出发，在 IP 前缀覆盖网中进行的第2阶段查询.查 
询目标是发起者 f 的 CCTD 中延迟最小的域，然后 
发起者 f 向种子节点发送查询消息.种子节点从自 
己的 IP 前缀路由表中找到距离目标最近的节点，并 
向其转发查询消息.转发节点递归的进行上述操作 
直到没有更近的节点进行转发（注意这里和上述结 
束条件不同，我们的目的是获得更多的节点）.在查 
询过程中，任意符合要求 （ IP 地址和目标 IP 前缀一 
致）的节点都将被返回.如果最后仍没有返回任何节 
点，那么发起者 f 会要求种子节点随机的返回在同 
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一 swarm 中的节点即可，因为这些节点虽然没有最 
低的延迟，但是在内容上都是满足要求的.图7给出 
了该查询算法的伪代码. 

//计算目标和当前节点前缀距离 

Dip prefix = Prefix p @Prefix B ; 
route 一 nodes= NULL ； 

// 如 i 查询就是当前节点直接返回 
if Di Ppre f ix = =0 { 
return Node B ； 

} else { 

// 查询路由表进行消息转发 
Let entry_key= [\ogD IPpre f ix ~\ ； 
route 一 nodes= get_wa\\ie{entry_key ); 
if {route_nodes !=NULL) { 
forward to route 一 nodes; 

} else { 

forward to C^RouterTable s. th. 

Dip prefix ( 夕， C) is minimal; 

} 

} 

// 如果找不到路由节点，返回当前节点 
If (route_nodes= =N\Jbb) { 
return Node B ； 


图 7 质量匹配查询算法伪代码 （ NodeB 收到质量 
查找消息后进行路由的过程） 

一个查询实例：图 3 给出了从发 起者九 开始的 
整个查询过程.如图 3( a ) 所示，％发起查询消息，目 
标是找到能够提供8号数据块的节点 .知 首先计算 
自己和8号数据块的距离: D vlmoint ( p a , block 8) = 6 , 
然后向最近的邻居内发出“内容匹配”查询消息.以 
同样的方式，九计算出自己和目标数据块的距离为 
D=l 然后发现节点夕 13 是属于目标 swarm 的.因 
此，九 3 作为种子节点被返回.接下来 ，九 从自己的 
域间延迟表中找到目标 IP 前缀 210. 77. * 并发起第 
2 阶段查询 .九 向种子节点九 3 发出 IP 前缀查询消 
息（如图 3( b )), 收到查询消息后，九 3 从自己的 IP 前 
缀路由表中发现九 4 最近并把消息转发给 fu . 以同 
样的方式 ，九 4 把查询消息转发给九 5 最后找到了位 
于 210. 77.* 内的目标节点. 

4.4 节点加入及系统维护 

当节点 P 加人网络的时候，它首先联系一个业 
已存在的节点 J . P 以 J 的路由信息初始化自己路 
由表，然后节点 P 以自己为目标（播放点和 IP 前缀） 
进行一次完整的查询操作.完成查询之后，节点户 
获得了最近的节点网络中距离自己最近的节点 Y ， 
最后4使用 Y 的路由表内容来刷新自己的路由表. 
注意，最后这次刷新的作用是 ：因为 Y 已经是距离 f 
最近的节点，对于 P 来说就是如何获取比 Y 更远的 
节点信息，而 Y 的路由表刚好可以提供.在路由表 


2012年 

刷新的过程中4也把自己的信息插人到了其它节 
点的路由表中. 

当节点 P 进行跳转、暂停、停止等 VCR 操作的 
时候4会通知邻居节点（路由表中的全部节点）自 
己新的播放点，同时邻居会更新相应的信息.在我们 
的方法中，域间延迟探测程序运行在单独探测服务 
器上，并间隔地更新 ICMT 和 CCDT 以提供最近的 
数据.有一点需要注意的是， CCDT 记录的是平均延 
迟.当—个节点加人系统，它首先是向探测服务器请 
求 ICMT 和 CCDT 并以服务器的更新频率进行数 
据更新（在我们的系统中，更新频率是 30 mm ). 

5 理论分析及实验 

5.1 理论分析 

在本节中，我们分析 Mediacoop 的查询效率.因 
为该方法涉及到两阶段查询，可以建立如下分析 
模型： 

P ( M , K ) = P FirstStage (M) + PSecondStage ( K ) , 

其中 ， P ( M ， iO 是总的查询跳数， P FirstStage ( M ) 和 
分别是第 1 阶段和第 2 阶段的查询跳 
数， M 是数据块的数量， K 是域（即叶子节点）的数 
量.首先分析第1阶段的查询效率 P Flrs ,s t a g e(M). Me ¬ 
diacoop 是一个结构化的搜索方法，其搜索过程类似 
传统的 DHT 方法，例如 Chord . 但是，我们使用的 
是播放点而非节点标识来建立索引.因此，本文方法 
的效率不是传统 DHT 方法的 O ( logN )， 而是播放 
点覆盖网对应的环上的播放点数量 M . 但是如果节 
点很少会导致数据块为空（即数据块不对应节点）， 
比如当节点数少于数据块数量的时候，这种情况下 
K = N. 因此查找效率应该取二者的最小值 ， gp 

-^FirstStage (M) = min{0(logM) ,0(logN)} , 

这里， N 是网络中全部节点的数量.总的来说，对于 
流行的 P 2 P 系统，节点的数量是十分庞大的，而一 
部影片的数据块的数量确实相当有限的.举例来说， 
根据我们实际经验，对于时长为 2 h 的电影，720个 
数据块就足矣了.也就是说， M 《 N , 因此我们有 
^Firststage ( M ) = min {0( logM ) ,0( logN )} =0( logM ) • 
在第 2 阶段，搜索过程实际上是在二叉树上的 
折半查找.因此，第2阶段的查找效率和折半查找的 
时间复杂度 一致： 

P SecondStage (K) = O(logK). 

这里， K 是域的数量.第 2 阶段的搜索过程在一个 
较小的范围中进行的，即第1阶段的目标 swarm . 而 
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PROP 

Mediacoop(no-DA ) 
Mediacoop(DA) 


100 500 1000 2000 4000 8000 

节点数 

图9控制信息开销随节点数的变化 


① P2VoD 没有跳转功能，在对比实验中我们对其加入了此项 
功能 . 

② GT-ITM 本身不能够区分 transit 节点和 stub 节点，我们在 
GT-TIM 源码基础上开发了工具进行分离 . 


0 2000 4000 6000 8000 

节点数 

图8平均跳数随节点数的变化 

(2) 网络开销.网络开销主要是指控制信息的 
数量，因为 P 2 VoD 是树形结构，并非网状，因此在 
本项指标中也不考虑 P 2 VoD . 如图9所示 ， PROP 
在三者的比较中表现最差，因为它要不断地发布和 
删除内容信息，导致了大量的控制信息 .Medmcoop 
( no - DA ) 的网络开销虽然强于 PROP 但是要比 
Medi ac 00 p ( DA ) 大得多，因为它在第2阶段使用了 
Gossip 协议，也带来了大量的控制信息.相比之 
下, Mediacoop ( DA ) 能够减少40%〜70%的网络 
开销 ■ 


5.3 实验结果 

(1) 平均跳数.在本项指标中，因为验证的是搜 
索到目标所进行的跳数，是针对结构化搜索方法的， 
因此并不涉及 P 2 VoD . 图8给出了 12组实验对应 
的平均跳数的实验数据.从结果可以看到， PROP 体 
现了典型的基于 DHT 方法的 “ logN ” 法贝 IJ ， 而 
Mediacoop 两个版本的表现均强于 PROP . 虽然我们 
看到 Mediacoop ( no - DA ) 跳数少于 Mediacoop ( DA ) ， 
那是因为前者没有第2阶段的搜索过程. 


平均来看，全部节点是均匀分布在每个数据块中的， 
即每个 swarm 的节点个数 h = N / M . 这样， K 小于 
或等于取最大值《的条件是每个域正好只有 
一个节点.因此， Mediacoop 总的搜索效率为 

P ( M , X ) = P FirstStage ( M ) + P SecondStage ( K ) < 

O ( logM ) + 0( logiV / M ) = O ( logN ), 

即 

P ( M , K ) < O ( logN ). 

也就是说，在不低于传统 DHT 一次查询的效率下， 
可以进行两阶段查询，既满足了内容上的要求，也在 
物理性能上得以提升. 

5.2 评价指标及实验参数 

P 2 P VoD 的评价指标分为两个方 面：一 是用户 
体验，二是系统扩展性.前者主要指启动时间、跳转 
时间和播放连贯率 [5 '\后者是服务器压力和网络 
开销 [5 ’\在本文中，我们不仅对以上几点均进行验 
证.还对搜索跳数进行了对比. 

我们把 Mediacoop 分为两个版本进行对比， 
第1个是单纯的内容搜索，不具备延迟探测（简称 
M e diacoop ( no - DA )), 即第2阶段没有搜索，取而代 
之的是使用 Gossip 协议定位 节点； 第2个版本是两 
阶段都有（简称为 Mediacoop ( DA )). 为了和目前较 
为流行的方法进行对比，我们实现了具有代表性的 
基于 DHT 的 P 2 P - VoD 系统 PROP C5] . 限于本文讨 
论的内容，我们没有实现 PROP 中的中心服务器功 
能.但我们与传统的“缓存转发”系统 P 2 VoD [s] 进行 
对比 

我们的对比试验是在 NS 2 模拟器上进行的.电 
影时长设置为 3600 s ， 码率为500 Kbps ， 一个数据块 
对应的播放时长为10 s . 使用拓扑结构生成器 
GT - ITM [14] 生成了典型的 transit - stub 网络，其包含 
了 860个路由器，之后随机选择100个 stub 节点作 
为域的分隔节点®.每个 stub 节点之间的延迟为 
10 ms 〜 60 ms . 同时生成8000个节点以均匀分布的 
方式依附于每个域上.整个实验分为12组进行，对 
应的节点数量从100〜8000不等.节点的加入以指 
数递减的方式进行 [15 -: 

A (^) = A 0 e r ， 

式中 ，心是 初始加人速率， r 为扩散参数.相应地，设 
置节点平均加人时间间隔为5 s ,平均在线时间为 
1800 s . 下载带宽为1 Mbps , 上行带宽可以支持2个 
并行流.启动和跳转时的缓冲数据量为能够播放 5 s 
的数据.模拟试验程序运行在超级计算机 Dawning 
4000 A 上，总共运行时间大于为 4 d . 


■■ Mediapcoop (DA) 

□ Mediacoop (no-DA) 

□ PROP 
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图10服务器压力随节点数的变化 


(4) 播放连贯率.图11显示了网络规模为4000 
个节点时，播放连贯率随时间的变化. Mediacoop 的 
表现要远远好于 RROP 和 P 2 VoD , 其原因和服务器 
压力一节中的相同.除此之外， PROP 这种基于 
DHT 的方法必须要等到整个数据块都接收完成后 
才能发布信息，这样势必造成数据共享效率的低下. 


5. 4 

我们实现了一个真实的 P 2 P - VoD 系统 CoolFish ®, 
并且已初具规模. CoolFish 的内容服务器位于中国 
科技网 （ CSTNet ) 内.从2008年10月到2010年6月， 
CoolFish 的访问用户数已超过4000⑻0,最近的日 
访问人数已经超过7000,在中国境内的用户分布超 
过28个省市. 

本文中提到的层次化搜索算法已经在 CoolFish 
实现，系统用 C + + 编写，总代码量超过80 000行. 
表1显示了 CoolFish 系统的 CCDT . 我们下一步将 
在 CoolFish 系统中对 Mediacoop 进行更深人的实 
验比较. 

6 结论及下一步研究 

节点搜索对于 P 2 P - VoD 系统是十分重要的，而 
最理想的搜索策略是既能满足内容匹配，又可以实 
现节点质量匹配.本文中提出的层次化搜索模型 


① http ： // www. cool-fish, org 


分的性能 表现： ①查找 速度； ②请求数据的速度.实 
际上，前者就是第1项指标，搜索的平均 跳数； 而后 
者决定于搜索到的节点的质量. Mediacoop ( DA ) 能 


够找到最近的节点，从而保证了请求的数据能够快 
速到达.图12和图13给出了实验结果.可以看到， 
对于 5 s 的数据缓冲区， Mediacoop ( DA ) 平均只需要 
大于 3. 5 s 的启动时间和 2 s 的跳转时间. 


10(10 


(3) 服务器压力.在实验中，有一个具备 
1000 Mbps 上能力的内容服务器.如果一个节点没有 
及时收到其请求的数据，它就立即向内容服务器请 
求数据.图10显示了随着节点数量的变化，内容服 
务器压力的 状况. 对于 Mediacoop ( no - DA ) ，它的 
压力要大于 Mediacoop ( DA ) ，因为 Mediacoop ( no - 
DA ) 没有第2阶段搜索，得到的节点延迟较大，造成 
了请求数据不能及时到达.对于 PROP 随着数据缓 
冲区的不断更新，被抛弃的数据没有来得及更新，对 
这些数据的请求自然不能得到满足，造成了更大的 
服务器 压力. 而在 P 2 VoD 中，服务器压力是最大的 
并且是线性增长的.这是因为它是树形的组织结构, 
而上层节点的离开会造成它所有孩子节点缺失数据. 



■ Mediacoop (DA) 

I I Mediacoop (no-DA ) 

□ PROP 

□ P2VoD 




(5) 启动和跳转时间.这两个指标涉及到两部 


0 0.5 1.0 1.5 2.0 2.5 

模拟时间 /(10 4 s ) 

图12启动时间变化情况 
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图13跳转延迟变化情况 


真实系统上 实现 ： CoolFish 
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Mediacoop 已经初步达到了上述目标.它使用了层 
次化的双结构模型，在内容查找阶段可以避免传统 
方法中大量的网络开销，同时又可以查找到具有最 
低网络延迟的节点集合.在理论分析上，证明了在小 
于 0( logN ) 的情况下，就可以完成两个阶段的搜索 
过程.从实验结果可以看到， Mediacoop 在用户体验 
以及系统扩展性上均好于其它方法.同时，我们的方 
法在真实系统 CoolFish 中的实现也体现了 Media ¬ 
coop 的有效性.下一步，我们将在 CoolFish 系统中 
进行更深人的对比分析. 
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Background 

As Peer-to-peer (P2P) technologies have obtained enor¬ 
mous success in content delivery，more and more video 
streaming providers have paid attention to developing P2P 
streaming applications to reduce server costs and accelerate 
user downloading. In P2P architecture ， clients ? resources 
(bandwidth, CPU, storage) are used to power the P2P sys¬ 
tem while optimizing network resources utilization. As P2P 
networks do not require any special servers or routers, the 
cost of such solutions is appealing. P2P multicasting is an el¬ 
egant alternative to CDN infrastructure which each end-host 
(peer) may act as a potential server for other peers. This 
avoids dedicated replication servers altogether. The approach 
is self-scaling, as the number of peer “servers” and peer cli¬ 
ents increases at the same rate，hence it avoids the bottleneck 
of a central server (or dedicated replication server). The 
approach, in principle, would allow a highly dynamic support 
of changing multicast demand at very low cost. 

P2P streaming focuses on real-time video streaming 
applications, which include both live and on-demand stream¬ 
ing. These systems are harder to deploy due to the real-time 
playback requirement at the receiver end. Many technologies 
exist for real-time video delivery. Broadcast video as used in 
TV is very good for delivering a limited number of streams to 


a very large audience. Point-to-point delivery is currently 
used for VoD and interactive video, as well as much of Inter¬ 
net video streaming，and can support a small audience with a 
large number of streams. The middle ground is covered by 
multicast delivery. Multicast delivery is very flexible and can 
enable a large number of senders to deliver content to any 
number of receivers. 

IP multicast was the first solution to provide multicast 
functionality in the Internet. It put forth an ambitious vision 
to support all multicast functionality within the routers in the 
network and proposed a powerful abstraction to applications 
where a group address identifies a multicast group and any 
host can send a message to a group by simply sending to the 
group address. However, due to many technical and market¬ 
ing reasons, it is still far from being widely deployed. In¬ 
stead, P2P streaming not only provides the same function of 
IP multicast but also off loads the central servers. 

This work is supported by the National High Technolo¬ 
gy Research and Development Program (863 Program) of 
China under Grant No. 2006AA010105-02，the National Basic 
Research Program(973 Program) of China (2004CB318109) 
and the National Natural Science Foundation of China under 
Grant No. 60933005. 
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基于半监督话题模型的用户查询日志命名实体挖掘 

曹雷 1 4，郭嘉丰 s 白露“ 2 ,程学旗 1 

(1. 中国科学院计算技术研究所网络数据科学与工程研究中心，北京100190； 

2. 中国科学院研究生院，北京 100049) 

摘 要：基 于用户查询日志的命名实体挖掘，目标是从用户查询日志中挖掘具有指定类别的命名实体。已有研究 
工作提出一种基于种子实体的挖掘方法，利用实体类别与候选实体之间的模板分布相似性来对候选实体进行排 
序。然而该挖掘方法忽略了命名实体具有歧义性、查询模板具有多义性和未标注实体信息，因而不能够有效的对 
候选实体进行排序。该文采用半监督话题模型，利用查询模板之间的关系来学习实体类别的模板分布，进而改善 
候选实体的排序效果。实验结果表明了该文提出方法的有效性。 

关 键词： 用户查询日 志； 命名实体 挖掘； 半监督话题模型 
中图分 类号： TP391 文献标 识码： A 

Named Entity Mining from Query Log through Semi-supervised Topic Modeling 

CAO Lei 1 ' 2 , GUO Jiafeng 1 , BAI Lu 1 ' 2 , CHENG Xueqi 1 
( 1 . Research Center of Web Data Science &- Engineering, Institute of Computing Technology, 

Chinese Academy of Sciences，Beijing 100190 ， China ； 

2. Graduate University of Chinese Academy of Sciences，Beijing 100049 ， China) 

Abstract : Named entity mining from query log aims to mine a list of named entities with the specific type from the 
query log. Previous work proposed a seed-based method which ranked the candidate entities based on the similarity 
between the template distribution of the specified class and that of the entities. However，it doesn’t take into ac¬ 
count the ambiguity of named entity, the polysemy of the template and the unlabeled data. In this paper, we propose 
a semi-supervised topic model，which leverages the relationship between the templates (i. e. the co-occurrence be¬ 
tween templates) to learn the template distribution of the specified class so as to improve the entity ranking. Experi¬ 
mental results show the effectiveness of the proposed method. 

Key words : query log; named entity mining ； Semi-supervised Topic Model 

数据资源。近年来，用户查询日志已经成为相关研 
1 引言 究领域广泛关注的对象。其中在用户查询日志中， 

含有丰富的实体信息。这些实体是用户查询的核心 
伴随着万维网的迅速发展和搜索引擎的广泛使 语义单元，也是人们正确表达查询意图的重要元素。 

用，产生了一类重要的用户数据，即用户查询日志。 从用户查询日志中挖掘命名实体，对于垂直搜索、知 
用户查询日志不仅记录了用户使用搜索引擎时的行 识库建立和查询意图理解等方面有着积极的作用。 
为，同时还反映了用户的喜好、兴趣和查询习惯等非 基于用户查询日志的命名实体挖掘研究工作开 

常重要的隐形知识，是一类富含“大众智慧”的海量 展较晚。已有研究工作 [1] 采用一种弱指导方式的挖 

收稿 日期： 2011-09-05 定稿 日期： 2012-04-05 

基金 项目： 国家自然科学基金资 助项目 （ 60903139, 60873243, 60933005) ; 国家 863 计划 重点资 助项目 （ 2010AA012502, 
2010AA012503) 

作者简介：曹雷 （1977 —），男，博士研究生，主要研究方向为实体检索与 挖掘； 郭嘉丰 （1980 —），男，博士，助理研究员，:主 
要研究方向为信息检索与数据 挖掘； 白露 （1983 —），男，博士研究生，主要研究方向为文本检索与挖掘。 





5 期 


曹 雷等： 基于半监督话题模型的用户查询日志命名实体挖掘 


27 


掘框架从用户查询日志中挖掘指定类别的命名实 
体，该挖掘框架利用类别和候选实体之间的模板分 
布相似性来对候选实体进行排序。该工作主要是基 
于单类别假设，即一个命名实体只属于一个类别。 
然而，命名实体可能隶属于多个类别，即命名实体具 
有歧 义性; 查询模板也可能来自于多个类别，即查询 
模板具有多义性。例如，对于命名实体 “star wars " , 
即可能隶属于类别 “ Movie ”， 也可能隶属于类别 
“ Game ”； 同样对于查询模板“ # download ”， 即可能 
来自于类别“ Movie ” ，也可能来自于类别“ Soft ¬ 
ware ”。 同时该工作也忽视了未标注实体的信息 
(即种子实体以外的候选实体），因而不能够准确地 
估计得到类别的真实模板分布，进而不能有效地对 
候选实体进行排序。 

本文综合考虑命名实体歧义性、查询模板多义 
性和未标注实体信息，采用半监督话题模型，利用查 
询模板之间的关系来学习得到类别的模板分布，并 
基于学习得到的类别模板分布对候选实体进行排 
序。最后在一个真实的用户查询日志数据集上来验 
证本文提出的方法。实验结果表明，本文的方法优 
于基准方法，具有较好的挖掘效果。 

本文的主要 贡献： （1) 综合考虑命名实体歧义 
性、查询模板多义性和未标注实体信息，利用查询模 
板之间的关系来学习类别的模板分布，进而改善候 
选实体排序的 效果； （2) 采用半监督话题模型来学 
习类别的模板分布。 

本文内容组织 如下： 第二节介绍相关 工作； 第 
三节给出问题 描述； 第四节介绍基于用户查询日志 
的命名实体挖掘 流程； 第五节详细阐述采用半监督 
话题模型来学习类别的模板 分布； 第六节介绍如何 
对候选实体进行 排序； 第七节给出实验结果和 分析； 
第八节对工作进行总结。 

2 相关工作 

命名实体识别和挖掘研究工作已经开展了 20 
多年，但主要是面向传统文本领域。早期的命名实 
体识别主要是基于人工编写规则的方式。随着机器 
学习的发展，越来越多的基于统计学习的方法被引 
人到命名实体识别领域，包括监督式学习、半监督式 
学习和无监督式学习。 

基于用户查询日志的命名实体挖掘研究工作开 
展较晚，相关工作较少。 Pa § ca [1] 首先提出基于用户 
查询日志来挖掘指定类别的命名实体，该工作采用 


了一种弱指导方式的挖掘框架。翟海军等人 [2] 利用 
弱指导的关联话题模型，来解决用户查询日志命名 
实体挖掘所面临的类别模糊性的问题。该工作同本 
文的工作相近，但是存在以下 区别： （1) 文献 [2] 主 
要是基于种子实体来学习类别的模板 分布； 而本文 
的工作是基于所有候选实体来学习类别的模板分 
布； （2) 加人指导信息的方式不同，文献 [2] 以种子实 
体的类别标注信息作为指导，加人到关联话题学习 
过 程中； 而本文是以种子实体对应的查询模板信息 
作为先验知识，加人到 PLSA 模型的学习过程中。 

Guo 等人 [3] 针对命名实体的类别歧义性的问 
题，提出一个弱监督式 LDA 模型框架来识别用户 
查询中的命名实体。 Xu 等人 [4] 结合用户查询中的 
上下文（即查询模板）和 “ click-through data ” 信息， 
从用户查询中识别命名实体。 Du 等人 [5] 从查询会 
话中提炼更加丰富的上下文特征，并基于提取的特 
征分别采用条件随机场模型和话题模型来从用户查 
询中识别命名实体。文献 [3-5] 更加关注如何从单 
条用户查询中识别命名实体，而本文工作是基于整 
个用户查询日志来挖掘命名实体。 

另外一部分相关工作是话题模型 （Topic 
Model )。 话题模型通过模拟文档的生成过程来对 
文档进行建模，经典的话题模型包括 PLSA [6] 和 
LDA [7] 。 话题模型被广泛地应用在各个领域，包括 
文本分析挖掘、文档检索、社会网络分析以及情感分 
析等。近年来，已有一些研究工作利用监督式话题 
模型 m 和半监督式话题模型 M 进行建模。其中，文 
献 [9] 采用半监督话题模型来解决用户观点集成问 
题，而本文工作则是利用半监督话题模型解决用户 
查询日志命名实体挖掘问题。 

3 问题描述 

我们用 Q ={ qi , qi ,... ，<?„}表示用户查询数据 
集合，用 S ^={ J ， J ，...， J } 表示隶属于类别： T 的 
种子实体集合，用 £ T ={er ， e 『，...， e 〗 } 表示具有类 
别： T 的命名实体集合。则基于用户查询日志的命 
名实体挖掘问题可以形式 化为： 给定一组类别乃， 
r 2 ，...， r „, 以及每个类别下的一组种子实体集合 
S T > ，目标是从 Q 中挖掘得到隶属于类别 r , 的实体 
集合 

已有研究工作 [3] 通过对用户查询日志分析表 
明，大约有70%的用户查询包含单个命名实体，因 
而本文主要关注包含单个命名实体的用户查询。基 
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于上述的分析结果，针对于包含命名实体的用户查 
询 g 就可以表示成为一个二元组，即 g =( e ，；）。 其 
中， e 表 7 K 命名实体；而 f 表本用户查询 g 中实体《 
的上下文，即查询模板。例如，对于用户查询“ star - 
craft walkthrough ” ，就可以表示成 （“ starcraft ” ，“并 
walkthrough ”） 。 

4 命名实体挖掘流程 


“ Game ”， 这就相当于一个文档具有多个话题。另 
外，查询模板“ # download ” 和 “funny # ”都对应着 
类别“ Movie ” 和“ Game ” ，这就相当于一个词语可能 
来自于多个话题。这样，就可以将类别模板分布的 
求解问题转化成传统文档的话题模型学习问题。具 
体而言，候选实体对应于传统文档，查询模板对应于 
传统文档中的词语，而候选实体所隶属的类别对应 
于话题。具体的映射关系如表1所示。 


本文基于用户查询日志的命名实体挖掘可以分 
为以下几个阶段。 

(1) 获取种子实体对应的查询模板 

利用所有指定类别下的种子实体，采用字符串匹 
配方式从用户查询日志中获取种子实体对应的查询模 
板集合。在进行字符串匹配的时候，忽略了大小写。 

(2) 获取候选实体 

利用得到的查询模板，从用户查询日志中获取 
查询模板所对应的候选实体集合。 

(3) 为候选实体建立“描述文档” 

利用得到的候选实体，从用户查询日志中获取 
候选实体所对应的查询模板集合。每个候选实体都 
会对应一组查询模板。这组查询模板可以看成是候 
选实体的“描述文档”，与普通文档的区别是，每个候 
选实体的“描述文档”中的“词语”是查询模板。 

(4) 学习目标类别的模板分布 

基于所有指定类别下的候选实体及其“描述文 
档”，采用半监督话题模型 （ SS - PLSA ) 学习得到目 
标类别的模板分布。具体的学习过程将在小节5中 
进行详细阐述。 

(5) 对候选实体进行排序 

最后，利用候选实体和类别之间的模板分布相 
似性对候选实体进行排序。 

5 半监督话题模型 （ SS-PLSA) 

每个候选实体都可以通过一组查询模板来描 
述，这组查询模板形成了候选实体的“描述文档”。 
例如，对于实体 “star wars ”， 在查询日志中可能对应 
一组相应的查询模板（图1 )，这组查询模板可以看 
成是实体 “star wars ” 的“描述文档”。在这个“描述 
文档”中，包含了类别“ Movie ” 和“ Game ” 的信息，其 
中，查询模板“# movie review ”、 “# cast ” 和“# 
trailer ” 对应着类别 “ Movie ”， 而查询模板“ # walk - 
through ”、“# game ” 和“井 cheats code ” 对应着类别 


star wars 




r ,, .. 


1 并 movie review I 

j # cast 

i 

1^ 

I # trailer 
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l # walkthrough 

■ n 

1 

j # game 

U 
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1 # cheats code 

1 

r 

'i 

i # download 

L funny # 

1 

1 

J 


“Movie” 


“Game” 


“Movie” 


“Game” 


图 1 实体 “star wars ” 对应的模板集合 


表 l 对象映射表 

用户查询领域 

传统文本领域 

符号 

查询模板 

单词 

Wj 

命名实体 

文档 

d , 

实体类别 

话题 

z k 


5. 1 传统 PLSA 模型 

我们首先介绍一下 Zhai 等人 [1 ° ] 提出的话题模 
型。假设给出一组文档集合 D ={ d 1 , d 2 ,... , d N }, 
文档中词语都是来自于词典 V = , 

vo M ) a 这些文档共同分享 K +1 个不同的话题，话 
题集合用 '(之 1，之2 5 • • • 9 ^ K ^ } 来表亦 ， 其中 之1， 

A ，... 表示所关注的 K 个话题，这些话题同指 
定的类别一一对应；^表示背景话题，引入背景话 
题的目的是为了加强其他 K 个话题的区分 能力； 一 
般而言，背景话题^对于那些没有区分度或者没有 
信息含量的词语，会给予较高的概率值。我们假定 
每篇文档的产生过程 如下： 

1. 以概率 / KA ) 选择一个文档 A ; 

2. 对于文档 A 中每一个词语 w ; ， 

( a ) 以 A b 的概率选择背景话题然后再以 p(wj | 
2^)的概率产生词语叫_; 

( b ) 以1 一的概率不选择背景话题然后再以 
p ( z k | ^, ) 的概率选择话题 2 ^ ;最后以 p(Wj \ z k ) 
的概率产生词语叫_。 
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给定参数集合八={/>(叫|々），^叫|々）|%67,461)，々6幻，单个文档生成概率 如下: 

M M I K \ n(d,zu .) 

pid I A ) — JJ p (d 9 zv j ) n ( d , w j ) = p (< i ) w(£/) JJ \ XbP^j I 2 ： b ) + (1 — Ab ) ^ P^j I z k ) p { z k \ d ) (1) 

i = l j = l 1 ^ = l J 

在式 （ l ) 中， A B e [ o ， i ] 是人工给定的经 验值； 在迭代求解过程中保持不变。整个文档 

表示背景话题产生词语加，的概率，该 集合的对数似然函数如下 所示： 

分项是基于整个文档集 D 上估计得到。 A B 和 


\ ogp(D | A ) = 2 2 w (< i , ，叫） . log As ^ Ctw ； I z B ) + (1 — A B ) pi-wj I Zk ) p ( z k I d ) 


+ 2 n ^ di )\ ogp { di ) 

i=l 

采用标准的 EM 算法来求解式 (2) 中的参数 A 。 
以下分别是 EM 算法的 E - Step 和 M - Step 。 

E-Step : 

p(z k I d,， W ,)= /(Ml I d.) ⑶ 

X) p^j I Zi)p{z L I di) 

i = \ 

p(z B I di , xvj ) 

X B piu)j I 2： b ) 

— K 

XbP^j I 2 ： b ) + (1 — Ab>2 pivOj I z k )p(z k I 

k = l 

( 4 ) 


M-Step : 

p(z k I < i ? ) 

M 

^ n(di ，•^ )(1 — ^?(2 ： b I di ,-Wj))p(z k I di^Wj) 

_ i=i _ 

K M 

^ ^ n(<i t ,w_,)(l —/>(zb I di ,vu j ))p(z l \ d { ,zt^) 

/ =i j=i 

( 5 ) 

I Zk ) 

N 

^^71( 山 ，%^)(1 — p(z B I d i ,-w j ))p(z k I di ， - Wj) 

— 2 = 1 
M N 

X) X) ” 以，叫 ）（1 —I d i ,-w l ))p(z k I di ,xv t ) 

/ = 1 i = l 

( 6 ) 


5.2 PLSA 模型的半监督学习方式 

在本文问题中，直接使用一个无指导的话题模 
型是不可行的。这是因为本文问题要求得到的隐话 
题能够和预先定义好的类别一一对齐，因而需要在 
话题模型的学习过程加人指导信息，即先验知识。 
在本文中，先验指导信息来自于给定类别的种子实 
体所对应的查询模板。 

对于某个指定的实体类别 r ， 利用该类别下的 
一组种子实体来遍历用户查询日志，得到一组对应 
的查询模板。在这组查询模板中，如果查询模板^ 


( 2 ) 

对应类别 r 的种子实体数目越多，对应其他类别的 
种子实体数目越少，则表明该查询模板〖与类别 : T 
的关联越紧密。我们将这些与类别： r 关联紧密的 
查询模板称为类别 r 的特征模板，这些特征模板在 
实体的类别判定上优于其他普通模板。本文通过简 
单的启发式策略来获取类别的特征模板，并将这些 
特征模板作为先验知识，加人到 plsa 的学习过程 
中。启发式策略 如下： （1) 查询模板对应的目标类 
别种子实体数目 较多； （2) 查询模板对应其他类别中 
的种子实体数目较少。 

这里通过扩展传统 PLSA 模型，加人特征模板 
来达到学习的话题与指定类别对齐的目的。具体而 
言，就是为每一个多项式分布的话题定义一个共轭 
先验，即狄利克雷先验 （Dirichlet Prior ), D / r({l + 
! ji k p {- w j \ d k )} Wj ^. 其中 A 定义为与话题 h 相对 
应的先验 话题% A 表示了对先验知识的可信程度， 
这里可以看作是一个虚 文档； 而/ ( 叫 I 久）表示为 
当估计 Mm | z t ) 时候，额外增加的词语 m 的 个数； 
特别的，如果 / ^ = 0,则表示没有任何先验知识。相 
应的词语产生过程可以用图2来表示。 

Prior To] 

❸ 


图2词语产生过程 

将参数集合的先验表示为户 （ A )， 则 MA ) 具有 
如下形式， 

K M 

p(A) cc JX JX ^ | Zk y^V ( 7 ) 


•pic 


Topic 
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根据上述定义的先验，采用 MAP (Maximum a 
Posterior) 来估计所有参数，如式 （8) 所示。 

A = arg max A log 户 （D I A)^(A) (8) 

同样采用 EM 方法来求解式 (8) 中的参数，这里 


EM 的更新公式和 5. 1节中的更新公式基本一致，唯 
一变化是式 （6) 中的更新过程加入了先验指导信息， 
新的更新式如 （9) 所示。可以看到，传统的 PLSA 和 
半监督 PLSA 区别就在于对分项|々）的计算。 


X) n(d i ， ) ( 1 — p ( Zb I cij 9 "Wj ^ pCzk I di 9 "Wj ) fj，k p (^"Wj \ 6 
Pj I z k ) = 1=1 M ~~^ - (9) 

2 2 n(d " 切 i )(1 — p ( Zb I djj xvi D p(Zk \ d j，zvi ^ juk 


6 候选实体排序 


7 实验 


在第五节中，本文通过采用半监督 PLSA 模型 
学习得到话题 A 中词语的分布 P ( vu \ z t ), 即实体类 
别所对应的模板分布。在本小节，利用类别的模板 
分布作为参照，来计算类别模板分布与候选实体模 
板分布的相似性，并基于该相似性来对候选实体进 
行排序。（候选实体模板分布计算如式 （10) 所示）。 
为了方便同 Pa ? ca 工作 [1] 的比较，本文同样采用 
Jensen-Shannon Divergence 作为相似度量。候选 
实体与类别越相似，表示该候选实体隶属于指定类 
别的可信度就越大。 


piuij | d) 


count (-Wj ,d) 
count (ui ,d) 


( 10 ) 


7.1 实验设置 

我们基于一个真实的用户查询日志数据集来验 
证本文提出的方法。该数据集是从一个商用搜索引 
擎查询日志中随机采样得到的，大约含有1 500万 
条用户查询。这里主要是利用查询词语本身，不考 
虑其他信息。 

在实验中主要考虑了三个语义类别，分别是 
“ Mo vie” 、“ Game” 和 “ Food” 。针对类别“ Mo vie” 和 
“Game”, 分别从不同的网站人工采集了相应的种子 
命名实体，网站包括维基百科 （www. wikipedia. 
com) ，豆瓣电影 （movie, douban. com) 和 GameSpot 
(www. gamespot. com) 。种子实体列表如表 2 所示。 


表2类别和种子命名实体 

目标类别 

种子命名实体 

Movie 

sin city, just my luck, miami vice，see no evil，stick it，the breakup，the lake house，the new world，an 

american haunting，animal farm，ghost rider，say anything，spiderman 3， star wars，over the hedge ， si¬ 
lent hill, the da vinci code 

Game 

doom 3 ， empire earth，half life 2， the sims，super mario brothers，age of empires 2， destroy all humans, 

command and conquer generals，call of duty，the legend of zelda，need for speed most wanted，devil may 

cry 3 ， kingdom hearts 2， drivers ed，star wars，over the hedge，silent hill，the da vinci code 

Food 

apple, beef ， candy, chicken ， coffee ， eggplant, hamburger, meat, pasta, pork, potato, rice, shrimp, to¬ 
fu, tomato, tuna，vegetables 


针对每个类别，返回前500个候选实体。我们 
请三个研究人员对这500个候选实体进行标注，如 
果某个候选实体属于指定类别，则标注为正确（分值 
为 1); 否则，标注为不正确（分值为0)。对于标注不 
一致的候选实体，则采取投票的方式来确定候选实 
体的标注值。基于上述人工标注后的结果，采用 P 
®N (前 N 个结果的准确率)来评估算法性能。 

在 SS-PLSA 模型的学习过程中，有两类参数需 
要人工预先指定。一个是式 （2) 中的参数 A B ， 它表 
示选择背景话题来产生词语的概率，实验中设置 


Ab = 0. 98。另外一■类是式 （9) 中的/在实验中我 
们赋予 p 较大的初始值（>10 000)，而后采用 Tao 
等人 [11] 提出的策略来不断减少/的取值。 

7.2 参评方法 

为了评价基于半监督话题模型方法的性能，我 
们与 Pa^ca 提出的方法 [1] 进行了比较。 Pa 狀 a 提出 
的方法作为基准方法，简称 Determ; 基于半监督话 
题模型的方法简称为 SS-PLSA ( Semi-Supervised 
PLSA ) 。 
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在表3中列出。从表3中可以看到，在每个度量指 
标上， SS - PLSA 方法基本都优于 Determ 方法。 

我们进一步分析了方法 SS - PLSA 能够取得较 
好挖掘效果的原因，这主要是由于 SS - PLSA 综合考 
虑了命名实体具有歧义性、查询模板具有多义性和 
未标注实体信息，充分利用查询模板之间的关系，更 
加准确地估计出各目标类别的查询模板分布。表4 
中给出了 SS - PLSA 和 Determ 估计的各类别下前 
10个查询模板。从表4可以直观的看到，在方法 
Determ 中，各类别下的前10个查询模板中往往混 
杂有一些噪音模板或者其他类别的查询模板，例如， 
类别 “ Game ” 的第1个模板“ # movie ’’。 


表3 方法 SS - PLSA 和 Determ 的性能 （ P @ N ) 



Movie 

Game 

Food 

Average P@N 


Determ 

SS-PLSA 

Determ 

SS-PLSA 

Determ 

SS-PLSA 

Determ 

SS-PLSA 

P@25 

0. 88 

0. 92 

0. 68 

0. 80 

0. 68 

0. 92 

0. 75 

0. 88 

P@50 

0. 72 

0. 92 

0. 70 

0. 74 

0. 68 

0. 92 

0. 70 

0. 86 

P@100 

0. 70 

0. 82 

0. 64 

0. 77 

0. 71 

0. 91 

0. 68 

0. 83 

P@150 

0. 71 

0. 75 

0. 63 

0. 70 

0. 63 

0. 90 

0. 66 

0. 78 

P@250 

0. 73 

0. 74 

0. 65 

0. 71 

0. 60 

0. 73 

0. 66 

0. 73 

P@500 

0. 66 

0. 66 

0. 42 

0.43 

0. 54 

0. 63 

0. 54 

0. 57 


Determ 方法主要是基于命名实体单类别假设， 
不能够准确地估计类别的真实模板分布，进而无法 
有效的对候选实体进行排序。而 SS - PLSA 方法综 
合考虑了命名实体歧义性，查询模板多义性和未标 
注实体的信息，利用模板之间的关系能够较好地学 
习得到类别的模板 分布； 而后利用学习得到的类别 
模板分布来对候选实体进行排序，进而改善了命名 
实体挖掘的效果。 

7.3 实验结果及分析 

基于上面所描述的实验数据和度量，本小节对 
方法 Determ 和 SS - PLSA 进行了比较。实验结果 


表4各个类别下前10个查询模板 


Movie 

Game 

Food 

Determ 

SS-PLSA 

Determ 

SS-PLSA 

Determ 

SS-PLSA 

井 movie 

并 movie 

# movie 

并 cheats 

# recipes 

井 recipes 

井 the movie 

并 the movie 

# cheats 

# game 

井 vacations 

^ recipe 

井 trailer 

井 trailer 

# game 

井 walkthrough 

condoleezza 井 

井 salad 

what is # 

并 soundtrack 

# games 

井 cheat codes 

kentucky fried 井 

^ receipes 

lego # 

井 trailers 

what is 井 

cheats for 井 

# ipod 

^ recipies 

# toys 

并 cast 

# walkthrough 

井 mods 

神 salad 

井 cake 

# soundtrack 

^ characters 

lego # 

井 2 cheats 

# diet 

井 sauce 

井 games 

并 hentai 

#2 cheats 

# the game 

# pox 

grilled 井 

井 galaxies 

并 campers 

井 toys 

幷 demo 

# computers 

baked 井 

井 game 

the movie 井 

# galaxies 

^ roms 

井 stand 

# dip 


需要指出的是，尽管方法 SS - PLSA 在改善实体 
排序效果方面，相对于方法 Determ 确实有一定程 
度的提升。但是从绝对效果上来说，还有很大的提 
升空间。特别是针对类别 “ Game ” ，候选实体的排序 
效果还有待进一步改进。这是因为用户查询日志 


中，仍然存在着大量的噪音 数据； 而查询模板有时不 
具有区分性。例如，针对类别 “ Game ”， 隶属于 
“ Game ” 的命名实体经常与“ # cheats ’’，/# game ” 
或者“ # cheat codes ” 等查询模板共现，但是某些游 
戏平台，例如 “ psl ” 和 “ xbox ” 等也经常同上述查询 
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模板共现。这样，就会将“ psl ” 和“ xbox ” 误判为 
“ Game ” 类别。 

8结论 

用户查询日志蕴含了丰富的实体信息，这些实 
体是用户查询的核心语义单元，也是人们正确表达 
查询意图的基本元素。从用户查询日志中挖掘命名 
实体，对于垂直搜索、知识库建立和查询意图理解等 
方面都有着积极的作用。然而，用户查询通常比较 
简短，书写不规范并且具有歧义性，给基于用户查询 
日志的命名实体挖掘研究工作带来了巨大的挑战。 
本文综合考虑命名实体歧义性，查询模板多义性和 
未标注实体信息，采用半监督话题模型，充分利用模 
板之间的关系学习得到类别的模板分布，并基于学 
习得到的类别模板分布来对候选实体进行排序，进 
而提升了命名实体挖掘效果。实验结果表明了本文 
方法的有效性。 
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一 种针对 Bencode 编码实现的 Bit Torrent 系统攻击方法 
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Abstract : BitTorrent, a peer-to-peer file sharing system, employs Bencode as encoding schema for storing and 
transmitting loosely structured data. The widely-used recursive implementation of Bencode, however, makes BitTor¬ 
rent vulnerable, a specially-designed torrent file or BitTorrent message leads to stack-overflow of BitTorrent clients. 
Experimental results suggest that about 39.1% BitTorrent clients, such as Xunlei(MiniXunlei), BitSpirit, BitComet, 
FlashGet, and TuoTu, are vulnerable to this remote crash attack. Things are worse since this attack is very efficient 
and can be easily launched at three stages of BitTorrent protocol. In this paper, a solution is also proposed to solve 
this problem. 

Key words : BitTorrent system; Bencode; stack-overflow; remote crash 

摘 要 : Bittorrent (BT) 作为一种流行的 P2P 文件共享系统，其 torrent 文件以及扩展协议中的相关消息都是采用 
Bencode 的编码方式。最初的 Bittorrent 系统是用 python 实现的，其中的 Bencode 编解码采用了递归的方式，后 
续的很多 BT 客户端实现都直接拷贝了这种方式。这就为针对 Bencode 编码实现的攻击提供了可能。首先构 
造了有一定递归深度的 torrent 文件以及扩展协议中的消息，实验发现对当前主流的 BT 客 户端： 比特精灵、迅雷 
(迷你迅雷）、比特彗星、 FlashGet 和 TuoTu 都会造成系统的崩溃。根据上述 BT 客户端的占有率，可知此种攻击 
全球覆盖率可达39.1%，对国内会达到70%以上。这是一种很有效的针对 torrent 以及 swarm 的攻击手段。最 
后给出此种攻击手段的防御手段。 

关 键词 : BitTorrent 系统; Bencode 编码;堆栈溢出；远程攻击 
文章编号： 1002-8331(2012)11-0075-07 文献标 识码 : A 中图分 类号 : TP393.08 


1 刖 a 

Bittorrent (BT) ra 是由 Bram Cohen 于 2001 年提 
出的一个 P2P 文件共享系统,采用 python 语言实现， 
其已经成为最流行的 P2P 文件共享软件之一。截止 


到 2009 年 2 月 BT 流量占整个互联网流量已达 27%〜 
55% [ \ 当前各种支持 BT 下载的软件层出不穷，比较 
流行 的有: 迅雷[ 3 ]、比特精灵 [ 4 ] 、比特彗星[ 5 ] 等。 

Bittorrent 引入了 两个新概念： Torrent 文件和 
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Tracker 服务器。 Torrent 文件包含共享文件的元信 
息 、 Tracker 服务器地址 、 Hash 校验值，作用是描述共 
享文件以及保证文件内容的正 确性 ; Tracker 服务器 
的作用是维护各个 Torrent 文件对应的网络节点的地 
址列表，从而帮助这些节点相互发现相互协调，以便 
有效地共享文件。 

Bittorrent 系统的网络结构如图 1 所示。 



节点之间的连接 

图 1 Bittorrent 网络结构图 

BT 系统通常由以下几个部分组成 [6] : 

(1) ^il 的 Web 服 #§l : Torrent 文彻勺存储服 

(2) BT 种子文 件：即 Torrent 文件，以 .torrent 结 
尾 , 包含了文件的基本属性。 

( 3 ) Tracker 服务器 :它负 责帮助 peer 之间相互建 
立连接。 

(4) BT 客户端 :节点 (peer), 系统的核心部分，用 
于实现下载策略。 

(5) 拥有共享文件完整拷贝的种子节点 (seed ) 。 

下载者要下载文件内容，需要先得到相应的 Tor¬ 
rent 文件，然后使用 BT 客户端软件进行下载。下载 
时， BT 客户端首先解析 Torrent 文件得到 Tracker 地 
址，然后连接 Tracker 服务器。 Tracker 服务器回应下 
载者的请求，提供下载者其他下载者 ( 包括发布者 ) 
的 IP 。 下载者再连接其他下载者，根据 Torrent 文件， 
两者分别向对方告知自己已经有的块，然后交换对 
方没有的块。 

随着应用的增加 , BT 也增加了新的功能和扩展 
协议，某些已经被广泛地采用而成为事实上的标 
准。如握手协议扩展、节点交换信息扩展 (Peer Ex¬ 
change ， PEX) 以及 DHT 等。主要目的是保证文件共 
享更加高效、迅速和鲁棒。 

目前国内外对 BT 协议安全方面的研究主要侧 
重 ： ( 1 )BT 流量检测和限制方面,比如利用数据流量 
吞噬网络带宽 [7] 等 ;(2)BT 本地客户端和 WEB 客户端 
漏洞方面,主要是利用客户端或 Tracker 服务器软件 
方面的漏洞,而不是针对 BT 协议方面的漏洞； （ 3 ) 当 


前更多研究是针对 BT 扩展协议的 DHT 协议 [8] 发起攻 
击,主要包括基于 DHT 的恶意节点加入和路由算法 
的攻击。针对 DHT 的路由安全问题，主要有路由攻 
击 [9] 、Sybil 攻击 、Eclipse 攻击 [ 12 ]、 DDoS 攻击[ 13] 等。 

BT 系统中 Torrent 文件以及扩展协议中的相关 
消息都是采用 Bencode 的编码方式。最初的 Bittor ¬ 
rent 系统是用 python 实现的，其中的 Bencode 编解码 
采用了递归的方式，后续的很多 BT 客户端实现都直 
接拷贝了这种方式。这就为针对 Bencode 编码实现 
的攻击提供了可能。 

本文首先构造了有一定递归深度的 （ 1 ) Torrent 
文件； （2) 握手协议扩展 消息； （3) PEX 协议中的消 
息。然后依次测试当前主流的共13种 BT 客户端对 
此类攻击的脆 弱性。 实验结果表明当递归达到一定 
的深度，都会造成迅雷 ( 迷你迅雷）、比特精灵、比特 
彗星、 FlashGet 和 TuoTu 系统的崩溃。根据文献 [14] 
统计数据显示，上述5种 BT 客户端都进入全球应用 
最广泛的 BT 客户端前10名，迅雷高居榜首,则此攻 
击的覆盖面达39.1%。对于国内，上述4种 BT 客户端 
的占有率更高,则此攻击的覆盖面也会更高。 

此类攻击可以在三个阶段发起： 

(1 )开始下载 Torrent 文件阶段。 

(2) 完成握手协议，发送握手扩展消息阶段。 

( 3 ) 已建立 Swarm , 发送 PEX 消息阶段。 

本攻击手段简单有效,成本低，只需构造具有一 

定递归深度的 Torrent 文件和扩展协议消息;在 Tor - 
rent 下载、建立握手、文件下载阶段都可以针对上述 
BT 客户端发起 攻击; 攻击效果明显，系统直接崩溃。 
因此这是一种有效的针对 Bencode 编码实现的 BT 系 
统攻击手段。 

2 相关背景 
2.1 Bencode 编码 

Bencode 编码 [15] 是 BitTorrent 用在传输数据结构 
的编码方式。这种编码方式支持四种数据 格式： 
string (字符串）, integer (整数), list (列表 ）， dictionary 
(字典)。 

其编码规则 如下： 

(1) 字符串 

字符串编码为: <字符串长度>: <字符串> 

字符串长度单位为字节，以一个整数代表冒号 
后面字符串的字节长度,没开始或结束标记。 

例如 : 4 : test ，表示为字符串 " test "。 

⑵整数 

整数编码为: i <整数> e 
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Files 一个字典结构，标识多文件结构 

Length 文件长度，单位字节(整数） 

Path 文件路径和名字，列表结构 

name 最上层目录名字(字符串） 

Piece length 每个块的大小，单位字节(整数） 

pieces 每个块的 20 个字节的 HASH 值(二进制格式 ) 


Length 文件长度，单位字节(整数） 

Name 文件名 

Piece length 每个块的大小，单位字节(整数） 

Pieces 每个块的 20 个字节的 HASH 值(二进制格式) 


2.3 BitTorrent 扩展协议 

提出 Bittorrent 扩展协议的主要目的是易于增加 
新的扩展又不干扰标准 BT 协议的执行。 

(1) 握手协议扩展 

握手协议扩展 ™ 的消息是 Bencode 编码的字典， 
其中的项目都是可选的,对客户端不能识别的项直 
接忽略。主要项目如表 2 所示。 

( 2 ) 节点间发送 Metadata 扩展 （Peers to Send 
Metadata Files) 


关键字 


内容 


Announce 
Announce-list (可选） 
Creation date (可选） 
Comment (可选） 
Created by (可选) 
Info 


Tracker 服务器的 URL 
备用 Tracker 服务器列表 
种子文件创建时间 
备注 

创建人或创建程序信息 
包含文働言息，分单文推納够文僧綱 


开始标记 i , 结束标记为 e 。 整数没有大小限制。 
除 iOe 外，所有以 0 开始的整数都是无效的。 

例如 : il234e , 表示为整数 1234 。 

(3 ) 列表 

列表编码为 :1 <Bencode 编码类型 > e 
开始标记为 1, 结束标记为 e 。 列表里可以包含任 
何 Bencode 编码类型，包括整数，字符串，列表，字典。 

例如： 14: test5abcdee ，表示为二个字符串 [”test n , 
n abcde n ]。 

⑷字典 

字典编码为： d<Bencode 字符串 xBencode 编码 
类型 > e 

开始标记为 d, 结束标记为 e 。 d 和 e 之间可以包 
含多个关键字和值对，关键字必须为 Bencode 字符 
串，值可以为任何 Bencode 编码类型。 

例如 : d3 : agei20ee , 表示为 { n age ll=2 0 } 。 

2.2 Torrent 文件 

Torrent 文件采用 Bencode 编码,就是一个大的字 
典结构。其关键字和内容如表 1 所示。 

表1 Torrent 文件格式 


表2握手协议扩展 


名称 

描述 


支持的扩展消息的字典，将扩展的名称映射 

M 

成一个扩展消息 ID ;对扩展消息 ID 的要求是 
唯一标识，若设置为 0 ,则表明此扩展不支持 

P 

本地 TCP 监听端口 

V 

客户端名称和版本号 

yourip 

此节点眼中的对方节点的 IP 地址紧凑模式 

ipv6 

Ip 地址的紧凑模式 

ipv4 

Ip 地址的紧凑模式 

reqq 

整数，本节点支持的最大的请求数 


节点间发送 Metadata 扩展协议 [17] 的目的是让节 
点首先不需要下载 Torrent 文件就可以加入一个 
Swarm, 完成文件的下载发送。此扩展协议允许节点 
之间交换 Metadata 信息。 Metadata 就是 Torrent 文件 
中的 “info” 字典这部分信息。 

此扩展主要在握手协议的扩展头 （extension 
header) 中的 “m ” 字典中增加了 “ut_metadata” 项。在 
握手协议中也增加了 “metadata_size” 项，标识 Meta- 
data 的长度。 

其实例 如下： 

{'m '： {'ut metadata', 3}, 'metadata size' ： 31235} 

(3)Peer Exchange 

Peer Exchange (PEX)™ 就是节点信息交换。最 
初 BT 设计，节点需要 Tracker 服务器才能加入一个共 
享文件群 ( Swarm) , 完成文件的下载。通过采用 PEX 
扩展，可以减少节点对 Tracker 服务器的依赖,节点可 
以直接通过同一个 Swarm 的其他节点更新其节点信 
息。这样使 BT 协议更加高效、迅速和鲁棒。 PEX 通 
常又包括两种扩展协议。一种基于 AZMP 的 
AZPEX, 另外一种基于 LTEP 的 UT_PEX 0 

两类节点信息交换发送的信息中都有在这个时 
间段中新增的 (“added” ） 的节点和被移除 （ “re¬ 
moved ”） 的节点。 在 UTPEX 中又分为 IPV4 和 IPV6 
两种地址。 

3 攻击实验 

3.1 打开恶意 Torrent 文件阶段 

此阶段主要研究各种 BT 客户端对在不同字段 
构造了不同嵌套深度的恶意 Torrent 文件的反应，其 
基本步骤如下。 

(1 ) 首先分析 Torrent 文件结构,具体选择在哪项 
字段可以嵌套。例如可以通过修改 Torrent 文件中的 
“announce-list’ 项的内容，使其成为定深度的歹據。 

(2) 生成指定嵌套深度的恶意 Torrent 文件。 

(3) 测试各种 BT 客户端对不同嵌套深度的恶意 


单文件结构 多文件结构 
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Torrent 文件的反应。 

(4) 获得实验结果 Q 

例如正常的 “ announce - list ” 项目可以是下面的内容: 

[[‘ http ：// tracker . prq . to / announce . php '] , 

[‘ http ： // tracker , prq . to / announce ’] ， 

[ 4 http ： // tracker , thepiratebay . org / announce ’]] 

创建的恶意 Torrent 文件其他字段与正常的 Tor ¬ 
rent 文件一致，而 “ announce - list ” 则可以由下面的内 
容来 替换： 

[[ [[•••[[[ ]]]•••] ]]] 

1000 1000 

即此时的 “ announce - list ” 字段是具有1 000个嵌 
套深度的列表 。 

采用同样的方法，实验中还利用下面的字段创 
建了恶意 Torrent 文件： “ announce” 、 “created by ” 、 
“creation data ” 、“ encoding ” 、 “ info ” ， info 字段中白勺 “ file ” 、 
name 、 piece length 、 piece ，以及 nodes 0 

各种 BT 客户端对恶意 Torrent 文件的反应可以 
分为3 类： 

(1) 客户端可以正确解析 Torrent 文件，完成正常 
的下载。 

( 2 ) 客户端解析 Torrent 文件错误，显示“无效的 
Torrent 文件”，不能完成文件的下载;某些客户端会 
给出提示 信息: “递归超过一定深度”，如 deluge 显示 
如图2所示的消息窗口。 



图 2 deluge 对恶意 Torrent 文件的反应 

(3) 客户端直接崩溃。某些客户端直接崩溃，而 
某些客户端崩溃的时候会显示消息窗口，提示发生 
不明原因的崩溃，如迅雷。 




图 3 迅雷对恶意 Torrent 文件的反应 


各种 BT 客户端对不同 announce-list 嵌套深度的 
恶意 Torrent 文件的不同反应见表3和表4,其中表3 
的客户端在一定的嵌套深度下会产生崩溃，表4中的 
客户端则不会。 

表 3 会崩溃的各个 BT 客户端对恶意 Torrent 文件的反应 


(其 “ announce - list ” 构造成不同的嵌套深度) 


序 

客户端名称 



嵌套深度 



号 

( 版本号） 

1 000 

2 000 

5 000 

10 000 

20 000 

1 

比特精灵 
(3.6.0) 

N 

c 

c 

c 

c 

2 

迷你迅雷 
(3.1.1) 

N 

N 

N 

N 

c 

3 

迅雷 

(5.9.25) 

N 

N 

N 

N 

c 

4 

比特彗星 
(1.22) 

N 

N 

C 

c 

c 

5 

Flashget 

(3.5.0) 

N 

N 

c 

c 

c 

6 

TuoTu 

(3.5.113) 

N 

N 

c 

c 

c 


表 4 不会崩溃的各个 BT 客户端对恶意 Torrent 文件的反应 
( 其 “ announce - list ” 构造成不同的嵌套深度） 


客户端 

对恶意文件的反应 

Bittorrent(6.4) 

N 

Utorrent(2.0.3) 

N 

Deluge (1.3.0-rcl) 

F 

Vuze(4.5.0) 

F 

Shareaza( 7.0.0) 

F 

Bittorrent Plus! 2(1.32 F) 

F 

ABC(2.7.1) 

F 

BitTomado (0.3.18) 

F 


* N :正常下载; C :系统崩溃; F :无效 Torrent 文件 


当针对 “ announce”、“created by”'“creation date ’’、 
“ encoding ” 、 “ info ”， info 字段中白勺 “ file ” 、 “ name ” 、 
“piece length ” 、“ piece ” 以及 “ nodes ” 字段构建不同嵌 
套深度的恶意 Torrent 文件。如果嵌套深度在1 000和 
5 000之间，则各种 BT 客户端都不会产生崩溃,只是某 
些客户端不能正确地解析上述恶意 Torrent 文件。而 
当嵌套深度达到5 000，贝 IJ 某些 BT 客户端会产生崩溃。 

对除 announce - list 外的其他字段构造一定嵌套深 
度的恶意 Torrent 文件。各种 BT 客户端对不同字段嵌 
套深度为5 000的 Torrent 文件的反应见表5和表6。 
3.2 握手扩展消息 

实验 步骤： 

( 1 ) 分析握手扩展消息的结构,选择在哪项可以 
进行嵌套。 

(2) 生成指定嵌套深度的握手扩展协议信息。 
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表 5 会崩溃的各种 BT 客户端对恶意 Torrent 文件的反应 
(其各种字段分别构造为5 000嵌套深度） 


表 7 会崩溃的各 BT 客户端对不同嵌套深度的握手扩展 
协议消息的反应 


嵌套的字段 


Announce info 


序 客户端名称 Created by • name 

- Creation - 

号 （版本号） files nodes 

Date —- 

Encoding Piecelength 


pieces 


比特精灵 

1 N F 

(3.6.0) 

C C 

迅雷 

2 

(7.1.1) 

c c c c 

比特彗星 

3 

(1.22) 

c c 

F 

c 

Flashget 

4 N F F 

(3.5.0) 

c 

TuoTu 

5 

(3.5.113) 

c c c c 


表 6 不会崩溃的各种 BT 客户端对恶意 Torrent 文件的反应 
(其各种字段分别构造为5 000嵌套深度） 


客户端 

Info 及 info 下字段 

其他字段 

Bittorrent (6.4) 

F 

N 

迷你迅雷 (3.1.1) 

F 

N 

Utorrent( 2.0.3) 

F 

N 

Deluge (1.3.0-rcl) 

F 

F 

Vuze(4.5.0) 

F 

F 

ShareazaC 7.0.0) 

F 

F 

Bittorrent Plus!2(1.32 F) 

F 

F 

ABC(2.7.1) 

F 

F 

BitTomado (0.3.18) 

F 

F 


* N ： 正常下载; C :系统崩溃; F :无效 Torrent 文件 


(3) 建立一个 BitTorrent 系统，安装多个 BitTor - 
rent 客户端软件，创建一个 Swarm 。 指定一个客户端 
作为攻击者。 


序 客户端名称 嵌套深度 


号 

(版本号） 

1 000 

2 000 

5 000 

10 000 

20 000 

1 

比特精灵 

(3.6.0.401) 

N 

c 

c 

c 

c 

2 

迷你迅雷 
(5.9.25.1528) 

N 

N 

N 

c 

c 

3 

迅雷 

(5.9.25.1528) 

N 

N 

N 

N 

c 

4 

比特彗星 
(1.22) 

N 

N 

C 

c 

c 

5 

Flashget 

(3.5.0.1126) 

N 

N 

c 

c 

c 

6 

TuoTu 

(3.5.113) 

N 

N 

c 

c 

c 


表 8 不会崩溃的各 BT 客户端对不同嵌套深度 
握手扩展协议消息的反应 


客户端 

对恶意文件的反应 

Bittorrent(6.4) 

N 

Utorrent( 2.0.3) 

N 

Deluge (1.3.0-rcl) 

F 

Vuze( 4.5.0) 

F 

ShareazaC 7.0.0) 

F 

Bittorrent Plus!2(1.32 F) 

F 

ABC(2.7.1) 

F 

BitTomado (0.3.18) 

F 


* N ： 正常下载; C :系统崩溃; F :无效 Torrent 文件 

(4) 修改攻击者 bittorrent 客户端程序流程，向其 
他客户端发送指定嵌套深度的 PEX 消息。 

(5) 记录对方的客户端类型以及后续的反应。 
各种 BT 客户端对不同嵌套深度的握手扩展协 

议消息的反应见表9和表10。 


(4) 修改攻击者 bittorrent 客户端程序流程,在与 
其他客户端完成握手协议后,发送指定嵌套深度的 
握手协议扩展消息。 

(5) 记录对方的客户端类型以及后续的反应。 
各种 BT 客户端对不同嵌套深度的握手扩展协 

议消息的反应见表7和表8。 

3.3 交互 PEX 消息阶段 

实验 步骤： 

( 1 ) 分析 PEX 消息的结构，选择在哪项可以进行 
嵌套。 

(2) 生成指定嵌套深度的 PEX 消息。 

(3) 建立一个 BitTorrent 系统，安装多个 BitTor - 
rent 客户端软件，创建一个 swarm 。 指定一个客户端 
作为攻击者。 


表 9 会崩溃的各 BT 客户端对不同嵌套深度的 
PEX 消息的反应 


序 客户端名称 嵌套深度 


号 

(版本号） 

1 000 

2 000 

5 000 

10 000 

20 000 

1 

比特精灵 
(3.6.0.401) 

N 

c 

C 

c 

c 

2 

迷你迅雷 
(5.9.25.1528) 

N 

N 

N 

c 

c 

3 

迅雷 

(5.9.25.1528) 

N 

N 

N 

N 

c 

4 

比特彗星 
(1.22) 

N 

N 

C 

c 

c 

5 

Flashget 

(3.5.0.1126) 

N 

N 

C 

c 

c 

6 

TuoTu 

(3.5.113) 

N 

N 

c 

c 

c 






































































80 2012,48(11) 


Computer Engineering and Applications 计算机工程与应用 


表 10 不会崩溃的各 BT 客户端对不同嵌套 
深度的 PEX 消息的反应 


客户端 

对恶意文件的反应 

Bittorrent(6.4) 

N 

Utorrent(2.0.3) 

N 

Deluge (1.3.0-rcl) 

F 

Vuze(4.5.0) 

F 

Shareaza (7.0.0) 

F 

Bittorrent Plus!2(1.32 F) 

F 

ABC(2.7.1) 

F 

BitTomado (0.3.18) 

F 


*N ： 正常下载 ; C : 系统崩溃 ; F : 无效 Torrent 文件 


4实验结果分析与防御方法 
4.1 实验结果分析 

从上述表格可知，这13种 BT 客户端对这三种攻 
击的反应是一致的,共可以分为3 类： 

( 1 ) 客户端可以正确解析 Torrent 文件或消息，完 
成正常的下载。 

(2) 客户端解析 Torrent 文件或消息错误，不能完 
成文件的下载。 

(3) 客户端直接崩溃。 

13种 BT 客户端中只有 Bittorrent 和 uTorrent 表现 
较好，可以实现对 Torrent 文件或 BT 扩展协议消息的 
正确解析，完成正常的下载过程。实验用的 Torrent 
文件或 BT 扩展协议消息除了嵌套深度以外就是一 
个正常的 Torrent 文件或 BT 扩展协议消息，估计 Bit - 
torrent 和 uTorrent 已经将 Bencode 编解码修改为非递 
归方式。 Deluge 、 Vuze 、 Shareaza 、 Bittorrent Plus !2 、 
ABC 和 BitTomado 显示为“无效的 torrent 文件”或 
“无效的 BT 扩展协议消息“，估计这些客户端对 Ben ¬ 
code 编解码还是采用递归方式,但是设置了嵌套的 
深度。而迅雷（迷你迅雷）、比特精灵、比特彗星， 
FlashGet 和 TuoTu 则表现较差，系统直接崩溃,估计 
这些客户端对 Bencode 编解码还是采用递归方式。 
考虑嵌套的深度问题，遇到特定的 Torrent 文件或 BT 
扩展协议消息就直接导致了系统的崩溃。 

在这13种客户端中，迅雷和 Tuotu 对 Torrent 文 
件不做检查,任何字段添加一定深度的嵌套深度，都 
会导致客户端的崩溃，说明迅雷和 Tuotu 在安全性方 
面考虑不够。 

2009年12月 Torrentfreak M 报道，海盗湾公布的 
数据表明，全球 BT 软件的使用者大约有三分之一来 
自中国，而来自美国的仅有8%。在其他 Tracker 运作 
者的协助之下， EZTV 的 NovaKing 从 OpenBitTor - 
rent ， PublicBitTorrent 以及 Denis Stalker 三大 Tracker 


上历时一周搜集到超过 35.7 亿独立 peers IDs , 表明 
迅雷成为全球 BitTorrent 市场份额最大的客户端。在 
前10个最多的 BT 客户端中，有5个来自中国，其中 
排行第一的迅雷占使用量的29.3%。国内迅雷的占 
有率更高，2008年数据显示作为视频下载工具迅雷 
市场占有率达到了 79.7%。 

根据上述数据,结合各种客户端的占有率,此类 
攻击手段全球的覆盖率可以到达39.1%，而针对国内 
的覆盖率可以达到80%以上。 
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图 4 网络中不同 P2P 客户端的占有率 


I'FFr Ite 

： «,7LT.3S6:lil 
9] oee:oas ys: 

K 0^.Jin'- 
ST.K7. . ： -!.*L ^； 


本攻击手段简单，只需构造具有一定递归深度 
的 Torrent 文件和扩展协议消息。而且此类攻击可以 
在三个阶段发起： （ 1 ) 开始下载 Torrent 文件 阶段； 
(2) 完成握手协议,发送握手扩展消息阶段; （ 3 ) 已建 
立 Swarm , 发送 PEX 消息阶段。针对上述 BT 客户端 
可以有效地阻止获得特定的 Torrent 文件，阻止获得 
特定的内容，破坏 Swarm 的建立,导致相应的 BT 客 
户端系统直接退出。说明此攻击手段是十分简单有 
效的。 

4.2 防御手段 

很明显有如下三种解决方法： 

( 1 ) 协议规定 Torrent 以及扩展协议的消息的嵌 
套深度，如果超过嵌套深度限制,则认为此 Torrent 文 
件或消息无效,直接抛弃。 

(2) 保持一个嵌套深度计数器，若达到一定的嵌 
套深度，则放弃，在目前看来,这种解决方法是最方 
便的可行性最高的，例如上面提到的 Deluge ^ Vuze , 
Shareaza 等 P 2 P 软件都采取此方法,通过以上的实验 
可以看出，采用此方法的 P 2 P 软件对超过嵌套深度的 
Torrent 文件解析错误,从而有效地阻止了嵌套太深 
而造成的系统崩溃。 

( 3 ) 将 Bencode 编解码实现改写为非递归的方 
式。可以估计， Bittorrent 和 uTorrent 已经将 Bencode 
编解码修改为非递归方式,采用这种方法，可以实现 
对 Torrent 文件或 BT 扩展协议消息的正确解析，完成 
正常的下载过程,达到比较好的预期效果。 
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5结论 

Bittorrent 系统中 Torrent 文件和很多扩展协议的 
消息都是采用 Bencode 的编码方式。如果 Bencode 
编解码实现延续了最初的递归方式,则通过构造恶 
意深度嵌套的 Torrent 文件和消息可以造成对 BT 客 
户端的有效攻击。本文首先构造了有一定递归深度 
的 Torrent 文件和扩展协议消息,实验发现对比特精 
灵、迅雷 ( 迷你迅雷）、比特彗星、 FlashGet 以及 TuoTu 
都会造成系统的崩溃。根据当前迅雷、比特精灵、比 
特彗星 .FlashGet 以及 TuoTu 的占有率，可知这是一 
种很有效的针对 BT 客户端的有效攻击手段。文章 
最后给出此种攻击手段的防御 方法。 

下一步的工作计划搭建 Tracker 服务器和节点 
群，建立了一个封闭的 Bittorrent 系统,开展 BT 的其 
他扩展协议消息对此类攻击脆弱性的研究，以获得 
此攻击有效性更准确全面的结果。 
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现实当中，当程序规模越大,反变换的复杂度也就越 

大， 而程序分析的精确度越低，从而妨碍对软件有目 

的的篡改，实现对代码的保护。 
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method of anti—anti—sniffer is put forward that changing the protocol stack and spoofing network communicationsDdetect- 
ing the network load then stopping sniffing when the load is increasing remarkably.Being an important aspect of the 
opposition of hacker attacking and network securityQthe opposition of sniffer and anti-sniffer will go on. 

Keywords □ SnifferQAnti-SnifferOPromiscuous Mode 


1 □ □ 

□ □□□□□□□□□□□□□□□□□□□□□□Cl [1] 口 

□□□□□□□□□□□□□□□□□□□□□□□□□□a 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□a 

□ □□□□□□□□□ ip □ n f2] on □□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□ nidsiii n □ n n [3] n □□□□□□□□□□□□□□□ 

□ □□□□□ [4 CI 

□ □□□□□□□□□□□□□ □□□□□□□□□□□ 

□ □□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□ □□□□□□□□_□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□ ip □□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□a 
□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 


□ □□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□ 

2 □□□□□□ 

□ □□□□□□□□□□□□□□□□□□□ IEEE □ 802 
□ □□□□□ 802 □□□□□□□□□□□□□□□□□ 

□ —□□□□ Ethernet!!] □ □ □□ Token RingDO □□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□ 

□ □ □□ CSMA/CDDDCSMA/CD □□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□MAC 

□ □□□□□□□□□□□□□□□□□□□□□□□□□[ID 

□ □ □ □ MAC □□□□□□□□□ MAC □□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□ MAC □□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□ 


□ □□□□□□□□□□□□□□□□□□□"□□□□□□□□□□□□□a D15.7.2D 

□ □□□□□□□ □□□□□□□□□□□ 

( C ) 1994020 ©IBiiflaDAfcadernic Journal Electronic Publishing House . All rights reserved , http :// www . cnki.net 
20 2001.18 □□□□□□□□ 



3 □□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□ 

□ im □□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□ TCP/IP □□□□□□□□ 

□ □□ ip □□□□□□□□□□□□□□ □□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□a 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ 2m □□□□□□□□□□□□□□□□ □□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□a 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □ □ 

□ □□□□□□□□□□□□□□□□□□□ wwwn 

SSQ Secure Sockets Layer □□口 □ □ Email 口 PG0 Pretty Good 
Privacynn S/MIME Secure MIMEDDD □□□□□□□ SSH 
□ secure shell□□ □□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□ Kerberos5nn □ □ 

□ □□□□□□□ Dsmart cardsH □□□□□□□□□□□□ 
SMB/CIFS □□□□□□□□□ Stanford □ SRPD Secure Re¬ 
mote PasswordDD □ □ □ telnet □ ftp □□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □ □ 

□ □□□□□□□□□□□ VPNQ Virtual Private Net- 
workDDVPN □□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □ □ □ vpn □ n n IPO □□□□□□□□□□□□□ 

4 □□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □ □ 

□ Id □□□□□□□□□□□□□ MAC □□□□□□ 
MAC □□□□□□□□□□□□□□□□□□□ □□□□□□ 

□ □□□□□□□□□□□□□□ MAC □ □ □ □ □ MAC □ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□ MAC □□□□□□□□□□□□□□□□□□□□ 

□ LINUX □ □ □ □ NETBSD □□□□□□□□ WINDOWS95Q 
98QNT □□□□□□□□□□□□□□□ MAC □□□□□□ 

□ □ □ □ □ oxfrn □□□□□□□□□□□□□□□□□□ 


oocpocpodd □ ip n n n n □ n arp n o n ip □□□□□□ 

□□□□□□□ 

□ 2[B □□□□□□□ □ tcpdumpDsniffitnesnifOinsniff □ 0 

□ □□□□□□□□□ IP □□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

IPd □ □ 

□3[E □□□□□□□□□□ □□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□ 

□ 1QMAC □□□□□□□□□ 1[|[| □□□□□□□□□ 

□ □ ip nn n n n icmp □□□□□□□□□□ tcp syn n 

□ □□□□□□□□□□□□□□□□□□□□□ mac □ □ n 

□ □□□□□ MACD □ □ □ □ ffDOODOODOODOODOOD □ □ 1 □ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□ IPd □□□□□□□□□ □□□□□□□□□□□ 

□ □□□□□□□□□□□□□□ IPO □□□□□□□□□□ 

□ □□□□□□□□□□ IPd □□□□□□ □□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□ MAC □□□□□□□□□□□□□□□□□ 

□ n n 

◄ -以太包头-— ip 包— ► 


fF:00:00:00:00:00 

本机 MAC 

Type 

正常 IP 包 


□ 1 □ □ □ MAC □ ffD00[]00[]00[]00[]00 □ □ IP □ 


□ 2QDNS □□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□[ID 

□ □□□□□□□□□□□□□□□□□□□□□□□ IPD □ 

□ □□□□□□□□ DNS □□□□□□□□□□□□□□□ 

□ □□□□□□ IPDD □□□□□□□□□□□□□ 

□ 3[E □□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□ icmp nnnn m n]nnnn 

□ non tcp/ip□□□□□□ icmp□□□□□□□□□□ 
icmp □□□□□□□□□□□□□□□□□□□□ icmp n n 

□ □ □ □ TCP/IP □□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□ TCP □□□□□□ 

□ □ □□ □ TelnetQFtp □□□□□□□□□□□□□□□ TCP 

□□□□□□□□□□□□□□□□□□□□□□□□□do 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□ ipd n n 

□ □ TCP □ □ □ □□ SYNOD □□□□□□□□□□□□□□□ 

□ □□□□□□□□ SYN □□□□□□□□□□ SYN n n □ 

□ □□□□□□□□□□□□□□□□□□□□□ syn n n n 


dh&ifl A^cS(firfii(5 jSuWM filScSoffl?¥fi6Bshing House. All rights reserved. http://www.WMn 鮮 □口 

□ □□□□□□□ 2001.18 21 









□ □ WEB □ ASP □□□□□□□□□□□□□□□□□□□ 

□ □ □ □ 

3.2 □□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □ □ □ 

□ in □□□□□□□□□□□ □□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□ Oracle □ □ 
snapshot □□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□HI 

□ □□□□□□□□□□□□□□□□□□□□□□□□□HI 

□ □□□□□□□□□□□□ 5D □□□□□□□□□□□□ 

nnnnnnnnnnnnnnn 
□ □□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□ 

□□□□□□□□□□ 

□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□ 

□ 2dd □□□□□□□□□□□□□□□ □□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□a 
□ □□□□□□□□□□□□□□□□ 

4 □ □ □ 

□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ nnnnnnnnnnnnnnn internet□□□□□□□ 



□ 5 □□□□□□ 


□ nnnnnnnnnnnnnnn moi □ 4 □ □ 

□ □ □ □ 

1 .httpQ// www.miscrosoft.com 

2.Microsoft Corp.IIS ResourceKit □□□□□□ [M ] ■口 □□□□□□ 

□ D1999 

3-D □ □ □□ □ □ -DNADD □□□□□□□□□□□□ [N ] •口 □ □ □ 

□ D1999.ll 

4.0 □□□□□□□□□□□ .Oracle 8 □□□□□□ □口 [M ] •口 □□口 

□ □ □ D1998 


□ □ □ 2i □ n 

□ □□ SYN □□□□□□□ □□□□□□□□□□□□□□□ 

□ □□□□□□□□□ 

5 □□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□a 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ 1QMAC n □ □ MAC □□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□a 

□ □□□□□□□□□□□□□□□□□□ MAC □□□□□□ 

mac □□□□□□□□□□□□ ip □ n n n n ip □ n n n 

IPDD □□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□[in 

□ □□□□□□□□□□□□□□□□□□ mac o □ □ n n 

□ □□□□□□□□□□□□□□□□□□□□□□□□□[in 
□□□□□□□□□□□□□□□□□□□□□□□□□□a 

MAC/IP □□□□□□ MAC/IP □□□□□□□□□□□□□□ 

□ □□□□ ie □ n n ipnn □□□□□□□□□□□□□□ 

MAC □□□□□□□ 

□ 2QDNS □□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 


□ 3 II □□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□On 

□□□□□□□□□□□□□□□□□□□□□□□□□□HI 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□ 

6 □ □ □ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□ _1 □ 4 □ □ 

□ □ □ □ 

1. Mark Taber.Maximum Security:A Hacker's Guide to Protecting Your 
Internet Site and NetworkfM].Macmillan Computer Publishing[]1997 

2. Brecht Claerhout.A short overview of IP spoofing[J].Phrack Magazine, 
1996Q4S 7 口 

3. Mark Crosbie[]Gene Spafford.Defending A Computer System using 
Autonomous Agents. CO AST LaboratoryDl 994 

4. Q □□□□□□□□□□□.□ □ ARPD □□□□□□□□□ [】]•□□ 

□ □□□□□□ _E 1DD38-40 

5 .httpQ//www.10pht.com/ antisniff/ 

6.David WuDFrederick Wong.Remote Sniffer Detection[M].1998.12 
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□□□□□□□□□□□□□□□□□□□□□□□□DO 

□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□ ClamAV □口 AC □ □ [ 1] [| □ 

□ □□□□□□□□□□□□□□□□□□□ DansGuardian 

□ □ Hospool DFA □□□□□□□□□□□□□□□□□□ 
SNORT □□□□□□□□□□□[□□ 5D □ □ □ ACD □ □ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □ Snort □□□□□□ 2004 □ □ 2 500 □ □ □ □ 2008 □ □ 
15 000 □ □ ClamAV □□□□□□□□ 0.83 □ □ □ 25 000 □ 


□ 1 P={abe, cab}U □ □ AC □ □ □ 


2.1 □□□□□ 

□ □ □ □ □ [ 2] 口 □□□□□□□:□□ □ □ □ □口 

□ □ □⑸口 □□□□□□□ mzo □□□□□□□□□□ T[q, 

^]D □ □ □ □ ?□□□□□□ □□□□□□□□□□ 

□ □ !□□□□□□□□□□□□ k\S\\T\ Byte □ □ □ 

□ □□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□ ?□□□□□ 

□ □ nextstate(q, s)=T[q, 

2.2 □□□□□ 

□ □ □ [21 d 

qi,q 2 ,---,q r )U □ □□'■□□□□□□□□ □ 

□ □□□□□□□□□□ quqi, …， q r □□□□□□□(□□□ 

□ □ □ )□ 

□ □ 2 □ □ □ □ □ □ eD □ □ □ □ ISID □□□□□□□ 
\S\+(k+\)e Byte 口 □ □ □ 口 

□ □□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□ 

nextstate(q, s) 

IfT[q][0] >0Then 

ForiGl...T[q][0] Do 

IfT[q][i] = sThen 

Return T[q][T[q][0]+i] 


□ □□□□□□" 973" □□□□□□□□ (2007CB311100) 

□ □□□□□□□ (1982Q )□□□□□□□□□□□□□□□□□□ 

□□□□□ □□□□□□□□□ □□□□□□□ 

D D D D D 2009-05-10 E-mail 口 yangyifu@software.ict.ac.cn 
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□ □□□□□□□□□□□□□□□ 

□ □ □ *- 2 0 □ □ □ 1,2 n □ □ □ 1 

(1_ □□□□□□□□□□□□□□□ 100190 口 2. □□□□□□□□□□□□ 100039) 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ AC □□□□□□□□□□□□□□ 

□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□ 

Automaton Compact Representation Technology 
in String Matching Algorithm 

YANG Yi fu 1 2 , LIU Yan bing 1 ’ 2 , LIU Ping 1 , GUO Li 1 

(1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190; 

2. Graduate University of Chinese Academy of Sciences, Beijing 100039) 

□ Abstract^ Automaton is one kind of data structure often being used in string matching algorithms. By realizing compact representation of 
automaton, the algorithm space can be decreased. This paper summarizes several frequently used compact representations of automaton, analyzes 
their principles, time efficiencies, space efficiencies, merits and demerits, and gives relationships between above methods and sparsity character. It 
implements the basic AC algorithm with compact representation method. Experimental results of random and real data demonstrate the efficiency of 
this algorithm. 

[1 Key wordsfl compact representation; automaton; string matching 
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D □ 
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模式串数量 /( WO 5 ) 


□ 2 

□ □ □ □ 

□ 

□ □ □ □ 

□ 

□ □ □ □ 

□ □ 

□ 1 □ 

□ □□□ 

卫 

□ □□□ 

卫 

□ □ □ □ 

0 MB 

□ □ 

□ □ □ □ 


□ □ □ □ 


Snort 

ClamAV 

□ □ □ 

170.720 


10.684 


57.974 

302.339 

□ □ □ 

2.981 


0.601 


0.954 

4.736 

Banded-Row 

5.262 


0.672 


1.141 

5.550 

□ □ 

6.960 


0.841 


2.307 

11.795 

□ □ □ 

4.867 


0.339 


1.309 

6.056 

□ □ 

9.001 


0.986 


3.346 

17.524 


□ 9 □ □ □ □ 

□ □ [7] 口 □□□□□□□□ 0(n)Q □ □ □ □ □ 0(1) 口 

□ □□□□□□□□□□□□□□□ f(x)=(kx mod p)mod q □ 

□ □□ rn□□□□□□□□□□□□□□□ /WD TU □ 

□ «□□□□□□□□ ?}□□□□□□□□□□□ fj{x)W □ 

•SD □ □ □ □ □ 6/jD 

□ □ [8 ] 口 □□□□□□□□□□□□□□□□□□ 

f(x)=(kx mod p)mod n 2 □ □□□ rQ □□□□□□□□□□□ 

□ □□□□□□□ ra?[0 ， l ， ... ，《 -l][|[| □ □ h(x)=(rd[i]+j) mod n 

□ □ □ □ □ 

□ □ 6 □□□□□□ □ eD □□□□□□□□□□□□ 

□ □□□□□□□□□□□ 0{e)W 

□ □□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□ ?□□□□□□ □ □ □ f=(ks mod p)mod « 2 □ □ 

□ □□□□□□□□□□□□ (rd[f/n]+f mod n) mod « □ □ □ 

□ □ □ □ □ 

3 □□ 

□ □ □ □ 6DDDDDDDDDDD ac □ □ □ □ □ □ 

□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□ 6DDDDDDDDDDDDDDDD 

□ □□□□□ 

3.1 □□□□□□□□□□ 

□ □□□□□□□□□□□□□□□2n□ in n n 


□□□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□(□□□□□□□□)□□ 95%n □□□□□□□□ 

□ □ □ Banded-Row □□□□□□□□ 

3.2 □□□□□□□□□□ 

□ □□□□□□□□□□□□□□□ 3D□ 2D□ □ 


End of for 
End of if 

2.3 Banded-Row Q Q 

Banded-Row [3] n □□□□□□□□□□□□□□□□□ 

□ □ !□□□□□□□□□□□□□□□□□□□□□□□ 

□ vunnn _ □□□ !□□□□□□□□□ nw □ 

□ □ bandwidth(U □ !□□□□□□□□□□□□□□□□ 

□ □□□□)□ V[2,3,...,l+bandwidth][\ D □ !□□□□□□ 

□ □□□□□□□□□□□□□□□ 

□ □ ^nnnnnnn □ Banded-Row □ n □ 

151 

2151 +A：y bandwidth/ Byte □ □ □ □ □ 

i=l 

□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □ □ □ □ 0(1 ) 口 □□□□□□□□□□□□□□□□□ 

nextstate(q, s) 
offset = s-q->V[0] 

If 0< offset< q->V[l] Then 
Return q->V[2+offset] 

End of if 

2-4 □□□□□□ 

□ □ □ □ [41 D □□□□□□□ AC □□□□□□□□□ 

□ □□□□□□□□□ EID □ □ □ □ bitmap □□□□□□□ 

□ □□□□□ ，+ □□□□□□□ bitmap[i]=l[\ □ □ □ 0[| □ 

□ □ □ □ VD□□□□□□□□□□ 

□ D 4 □□□□□□ □ eD □ □ □ □ I5ID □□□□□□ 

IZID □□□□□□□ l5IIXI/8+A-e Byte □ □ □ □ □ 

□ □□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□ 

nextstate(q, s) 

If q->bitmap[s]!=0 Then 

temp=(q->bitmap) & 卜 】 +1 

k=PopCount(temp) 

Return q->V[k] 

2.5 □□□□□ 

□ □ □ □ □ [ 5 ] 口 □□□□□□□□ 3nnnnnnnn 

base[s]U □ ^ □ next □□□□□□□□ next □ □ □ □ 

□ □□□□□□□□□□□□□□□□□□ check U D □ next 

□ □ □ check[t]=s □ □ next[t]U □□□□□□ s[] U 

□ □ snnnnDnnn check n next 

□ □□□ □□□□□□□□ k\S\+2ke(l+r) Byte □ □ □ 

□ □□□□□□□□□□□□□□□□□□□□□ 

nextstate(q, s) 

t = base[q] + s 
If check[t] = q Then 
Return next[t] 

□ □ _ □ trieD □□□□□□□□□□□□□□□□ 
next □□□□□□□□□□□□□□□□□ 2 □ □ □ □ □ □ 

□ □□□□□ base □ checkU □□□□□□□□ 2 D □ □ □ 

□ □□□□□□□□□ 

nextstate(q, s) 
t = base[q] + s 
If check[t] = q Then 
Return t 
Return fail 
2-6 □ □ □ □ 

□ □ □ □ [ 7] 口 □□□□□□□□□□□□□□□□□□ 


9墨樹 舉 # 
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0.6 

0.4 

0.2 

°'°0 4 8 12 16 20 24 28 32 36 40 

□ □□/(%) 

n 4 □□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □ □ □ 38 □ □ 

□ □□□ 

[1] □ □，□ □•□□□□□□□ [J]- □□□□□□□□□， 

2003, 24(4): 728-732. 

[2] □ □•□□□□□□□□□□□□□□□□ [J]- □ □ □ □ □ 

□ □ □ □ , 2007, 28(6): 1149-1152. 



□ □ □ □ 
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333-340. 
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Systems, 1984, 6(4): 546-572. 
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[2008-12-05] • http://www.idsresearch.org. 
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2628-2639. 

[5] Aho V, Sethi R, Ullman J D. Compilers: Principles, Techniques, and 
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3 5 10 15 20 25 30 35 40 4 

□ □□□□ /(xlO 3 ) 

□ 3 □□□□□□□□□□□□□□□□ 
□ 2 □□□□□□□□□□□□□□□□ 


□ □ 

□ □ □ □ 

□ □ □ □ 

Snort 

ClamAV 

□ □ □ 

3.867 2 

2.898 4 

2.665 7 

3.676 9 

□ □ □ 

7.748 5 

3.203 3 

11.959 3 

15.040 4 

Banded-Row 

5.656 4 

2.728 1 

4.826 1 

6.179 8 

□ □ 

19.869 0 

4.213 9 

27.934 7 

24.371 8 

□ □ □ 

2.674 9 

2.587 5 

1.653 3 

1.234 5 

□ □ 

18.898 4 

5.534 6 

34.790 9 

37.637 2 


□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □ □ □ Banded-Row □□□□□□□□□□□□□□□ 口 

□ □□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□ 

□ cache □□□□□□□□□□□□ 

3.3 □□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□ i ooonn n 



口 

D 

D 

4 

D 

D 

D 

D 

D 

D 

D 

D 

D 

口 

6 

5 
2 

□ 


aw/ □ □ □ □ 


□ 口 

□ 口 

□ 口 

□ 口 

□ 口 

□ 


% 

5 


W 

o 

□ R 

d - 

e 

d 


B 

口 

%□ 


□ 

□ 

□ 

□ 

□ 

□ 

□ 5 

□ □ 

□ 口 

□ 口 

□ □ 

□ 口 

□ 口 

□ 口 

□ 口 

□ 口 

□ 口 

□ 口 

□ 口 


D 

D 

□ □ 

□ 口 

□ □ 

□ □ 

□□ m 
□ □ 

□□□□ 口 

□□□□□ 
□□□□ 口 

□ □ □ 

□□□□□ 
DDDD 

□ □ □ 
□ □ 

□ □ □ 

□□□□ 

□ □口 

□ □口 

□ □口 

□ □口 

□ □口 


□ □ 
□ □ 
WDD 

-RC 
edA 
d 

B □ 

□ 口 

□ 口 

□ 口 

□ 口 

□ 口 

□ 口 

□ 口 

□ 口 

□ 口 

□ 口 

□ 口 

□ 口 

□ 口 
□□口 
口 □口 
□ □口 

D 

4 □ 


D 


D 

口 

D 

口 

D 

D 

D 

D 

D 

D 

D 

D 

□ 口 

□ □ 

□ 口 

□ 口 

□ □ 

□ 口 

□ 口 

□ 口 

□ 口 

□ 口 
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□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□a 

□ □ □ □ NIDSD □□□□□[”□□□間 

□ □□□□□□□□□□□□□□□ □口 

□ □□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□ 
□ □ 

2 .ARPD □ □ □ 

2.1 ARP D D □ □ 

□ TCP/IP □□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□ 

48 bit □_□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□ 

□ □□□□□□□ 48 bit □□□□□□□□ 

□ □□□□□□□□□□□□□□□□ IP 口 

□ □□□□□ IPDD □□□□□□□□□□ 

32 bit □ IPDDDDDDDDDDDDDD 

□ □□□□□□ 


ARP 口 □□□□□□□ [3 忙 □ □ □ □ □ 

□ □□□□□ arp □ IPDDDDDDDD 
□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□ 

□ □ □ □ 

□ arpq D □□□□□□□□□□□ 

□ □□□□□□□□□□□□□ 48 bit □□口 

□ □□□□□□□□□□□□□□□□DO 

□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□ tcp/ip □□□□□□□ 
32 bit □ IP □□□□□□□□ IPQ □ □ □ □ 
□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□ 

□ D □ □ D Darpd □ □ □ □ 32 bit □ ip □ 

□□□□□□□□□□□□□□□□□a 

□ □□□□□ 

2.2 ARP □ □ D □ □ 

□ □ !□□□□□□□□□□ TCPD 

□ □□□□□□ IPDDDDDDDDDDD 

□ □□□□□ [41 D 

ID tcpd □□□□□□□□□□□□ 

□ □□□□□□□ ip □ □ □ □ □ D IPG □ 

□ □ 

2 D □□□□□□□□□□□□□□□ 

□ □ IPDDDDDDDDDDDDDDDD 
□□□□□□□□□□□□□□□□□□□ 
ip □□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□ IPG □ □ □□ □ 

□ □□□DDiPDDDDDDDDDDDD 


*□□□□□□□□□□□□□□□□□□□□□□□□□□(□□ 15.7.2) 

□ □□□□□□□□□□ 1974 □ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 


□ □ ARP □□□□□□□□□□ 

□□□ □□□ □□□ □□□ 

□ □□□□□□□□□□□□□□□□ 150001 

□ □ □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□ ARP □□□□□□□□□□ ARPD □ D □ D □ IPDDDDDDDD 
□□□□□□□□□ 

□ □ □ □□□□□ARP □□□：!? □□□□□□□ 


□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
]□ 


□ □ 
□ 


D □ □ 

□ □ ^u 

o on. 

□ □ □ 

□ 口 5 n 
D D 

D □ D 

□ □ □ 
D D □ 
D D D 
D D □ 
□ □ □ 
D D D 
D D D 
D D D 
D □ D 
D D D 
D D □ 
D D D 



]□ □ □ □ 
3D DD 

]□ □ 32 bi 


□ □ □ 

□ □ □ □ 



□ □ □ □ □ 
□ □□□□□ 


□ □ □ □ □ 


□2DDDDDD 

□ □ □ □ □ ARP □□□□□□□□ Internet 

□ □□□□□□□□□□□□□□□□□□ 

4 D ARPDDDDDD arpdddd 

□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□ ID □ □ □ □ □□ ARPD 

□ □□□□□□□□□□□ IP D □ DD □ D 

□ "□□□□□□ ip □□□□□□□□□□ 

□ □□□□□□" 

5 D □□□□□ arpdqddDDD 

□ □□□□□□□□□□□□□□□□ ip □ 

□ □□□□□□□ arpq D D □ D arpd 

□ □□ ip □□□□□□□□□□□ 

6 Q □□ arpdDDDD ipDDDD 

□□□□□□□□□□□□□□□□□□□ 

□ □ □ □ 

7 D □□ IP □□□□□□□□□ 

2.3 ARPQ □ D □ D 


■ □□□□□□□ 

□□□□□□□□□□□□□□□□□□a 

□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□i □ □ 

□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□ 

□ □□□ _□□□□□□□□□□□□□ 

□ □ ARP □□□□□□□□□□□□□□ 
0 x 0806 口 

□ □□□□□□□□□□□□□□□ 

□ □ i □□□□□□□□ DD□□□□□□ 

□ □□□□□□□□□□□□□ 0 x 0800 □ 

□ □ IP □ □ □ 

□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□a 

□ □□□□□□□ IPD □ □ arpd □ □ D 

□ □□□□□□□□□□ 6D 4Q 



























□ □□□□□□□□□□□□□ ARP 

□ □□□□ i[E ARP D □ □ D □ 2 Q ] 

□□□□□□□□□□□□□□□□ 

□ [□□□□□□□□□□□□□□□□□ 

□ □ 

□ □ arpd □ □□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□ arpd □ □ □ □ □ 

□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□ 

□ □□ 2D □□□□□□□□□ 

2.3ARPD □ □ □ 

ARPDDDDDDDDDDDDDD 

□ □□□□ 層間間 □□□□□□□□ 

□ □ □ □ !?□□□□□□□□□□□□□ 
_□□□□□□□□□□□□□□□ 20 
□ □ □ 

3. □ □ ARP □□□□□□□□□□□□□ 

3.1 ARPD □ □ □ □ □ 

□ □□□□□ arpddDDDDDD 
□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□ 

ID □□□□□□□□□□□□□ 

□ □□□□□□□□□ arpdDDDDDDD 
□□□□□□□□□□□□□□□□□□□ 
MACDDDDDDDDDDDDDDDD 
□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□ 

2D arpdddddddddddd 

□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□ macdDDDDDDD 

arpd □ □□□□□□□□□□□□□□□ 

ARPD □ □□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□ 

□ mac □□□□□□□□□□□□□□□ 

□ □ □ □ □ 

3 D □□□□□□ ARPD □ □ □ □ □ 

□ □ ARPDDDDDDD □□□□□□□□ 

□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□ arpqd □□□□□□□□ 

□ □□□□□ arpd □ □□□□□□□DD 


□□□□□□□□□□□□□□□□ 

4 Q arpdddDDDDDD arpq 
□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□ arpd □ □ □ 
MAC □□□□□□□□□□□□□□□□ 

□ □□□□ ARPDDDDDDDDD mac 
/^□□□□□□□□DDDDDDDD 

3.2 ARPQ D □ □ 

□ □□□□□□□□□□□□□□□ 

□ □□□□ ARPD □ □ 

ID □ □ in □ □ □ 2.2 D □ □ □ ARP 

□ □□□□□□ 4 D □ D □ arpd □ □ □ □ 

□ □□□□□□□□□□□□□ ARP □ □ 

□ □□□□□□□□□□□□ 

2 D □□□□□□□□□□□□ ARP 
□ □□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□ mac □ □ □ □ □ □ 

□ □ ARP □□□□□□□□□□□□□□ 

□ □ □ □ ARPQ □ □ 

3 D □□□□□□□□DD ARP □ □ 

□□□□□□□□□□□□□□□□a 

Linux 口 □□□□□□□□□□□□ ARP □ 

□ □□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□] 3.1 

D D D □ 3 DQDDDDDDDDDD arp 

□ □□□□□□□□□□□□□□□ arp 

□ □_□□□□□□□□□ MACD D □ 

□ □□□□□□□□□□ arp D D D □ □ 

□ □ □ □ 

3.3 IP □ □ □ 

□ □□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□ 

□ □ IP □ □ □ □ □ 

IP □□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□ IPD □ □ 



□□□□□□□□□□□□ 

□ □□□□□□□□□□ ip □ □ D D 

□□□□□□□□□□□□□ 

ID □□□□□□□□□□ IP/MAC 

□ □□□□□□□□□□ IPG □ □ arpq 

□ □ ip □□□□□□ 

2Q □□□□ ip □□□□□□]□ ip 

□ □□□□ ip □ □ □ □ □ IPD □ □ D □ D 
macd □ □ 

3Q □ □ □ □ MAC □ □ □ □ □ 
MACD □□□□□□□ MAC □□□□□□ 
MACD □ □ □ □ IP □□□□□□□□ 
3.4ARPQ □ □ IP □ □ □ D □ 

□ □□□□□□□□□□□ arpd D 

□ □ IPDDDDDDDDDDDDDDDD 
□□□□□□□□□□□□□□□□□□□ 
ARPDDDDDDDDDDDDD ip/mac 
□□□□□□□□□□ 

□□□□□□□□□□ 

while(true) 

{ 

□ □□□□□□□□ 

□ □□□□□□□□ 

^ □ N □□□ □ □ 

return; 

iJQ □ arpu □ □ □ 

{ 

□ □ □ □ □ ARPQ □ □ □ 

□ IP/MAC U □□□□□□□ 
return; 

I 

(JQQ IPQQQQ 
{ 

□ IP/MAC Q □ □ □ □ IPU MAC □ □ □ 

□ □□□□□□□□□□□□□□□ 


□ □ 

return; 

l 

} 

□ □□□□□□□□□ 

while(true) 

{ 

□ □□□□□□ 

□ □ IP/MACU □□□□□□□ ARPU □ □ Q 

} 

4 . □ □ □ 

□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□ arpd □ D IP □ □ □ □ 

□□□□□□□□□ 

□ □ □ □ 
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Sniffing in Switched Ethernet with ARP Spoofing 
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Abstract 

The sniffing in ether network is analyzed, then the possibility of sniffing in 
switched ether network is studied. After ARP protocol is stutied in details, an active 



sniffing technique is put forward, which combines ARP spoofing and IP forwarding. 
Key words : Switched Network, ARP Spoofing, IP Forwarding, Active Sniffing 
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Abstract Identifying heavy hitters in a network traffic stream is important for a variety of network applications 
ranging from traffic engineering to anomaly detection such as detection of denial-of-service attacks. Existing 
methods generally examine newly arriving items in the stream, perform a small number of operations using 
a small amount of memory, and still provide guarantees on the identifying accuracy. In high-speed network 
monitoring, the update speed per item is extremely critical. However, so far as we know, there are no identifying 
algorithms which can provide constant update time (0(1)) in a weighted data stream. In this paper, we present 
an algorithm named Weighted Lossy Counting (WLC) which is able to identify heavy hitters in a high-speed 
weighted data stream with constant update time. WLC employs a novel efficient partially ordered data structure 
which is able to provide a fast per-item update speed while keeping the memory cost relatively low. We compare 
WLC with state-of-the-art algorithms for finding heavy hitters in real traffic traces. The experimental results 
show that WLC performs well in accuracy (recall, precision and average relative error) as other algorithms; 
moreover it has a much higher update speed at the cost of relatively larger memory space used. A theoretical 
worst-case memory bound of WLC is also derived in this paper; however, experiments with long real traffic 
traces show that WLC requires much less space than the theoretical bound in practice. 
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1 Introduction 


To accurately measure and monitor network traffic is the basis of managing large-scale networks. In the 
traffic measurement, flow level approaches can provide a reasonable tradeoff between the volume of infor¬ 
mation and its level of detail [1]. And many studies [2-5] have shown that flow statistics exhibits strong 
heavy-tailed behaviors in various networks: a small percentage of flows account for a large percentage of 
traffic, e.g., Fang and Peterson [6] indicate that 9% of the flows between autonomous system (AS) pairs 
account for 90% of the byte traffic between all AS pairs. This characteristic is often referred to as the 
elephant (i.e., heavy hitter) and mice phenomenon. Identifying flows which are responsible for most bytes 
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of traffic is useful for many applications, such as discovering denial-of-service (DoS) attacks [7], warning 
heavy network users, monitoring traffic trends and balancing traffic load [8]. 

Currently there are two possible definitions for elephants. First, elephants can be defined as the flows 
of which the size in byte exceeds a fixed threshold (say, 100 MB) [9-12]. Second, elephants can be 
defined as the flows whose share exceeds a prescribed fraction cj) of the traffic actually observed (such 
as one thousandth) [13]. The two definitions are, of course, equivalent if the size of total traffic is 
known beforehand. In this paper, we take the second definition of elephants. In this case, the elephant 
identification problem in the context of network monitoring is essentially the frequent item identification 
problem with weighted input in the context of data stream mining. Throughout this paper, we will use 
the terms elephants, heavy hitters and frequent items interchangeably. 

Today the per-packet processing on current backbone links needs to be accomplished within time 
scales of a few nanoseconds. With an average packet size of 1000 bits, the per-packet processing time 
for OC-192 and OC-768 can be less than 100 and 25 ns, respectively [14]. Furthermore, the algorithm 
faces increasingly harder real-time constraints as the speed of the backbone links increases (improving 
100% per year according to Estan and Varghese [9]). Although there have been several frequent item 
identification algorithms which can handle weighted input [15-17], none of them have constant update 
time (0(1)). They need 0(log(|)) [15] or 0(log ( 泰 ) ） [16, 17] update time, which is unacceptable for the 
online identification of heavy hitters in high-speed networks. 

In this work, we introduce Weighted Lossy Counting (WLC) which is able to identify heavy hitters in 
high-speed network monitoring with constant update time. The paper is structured as follows. In section 
2, we formally state the problem followed by a discussion of related work. We present WLC as well as 
the correctness and complexity (space and time) analysis in section 3. In section 4, we first describe how 
to dimension WLC, and then compare its performance with other proposals in the literatures, at last 
investigate its memory cost with very large real traffic traces. The paper is summarized in section 5. 

2 Preliminaries 

2.1 Problem definition 

Assume the items ^ 2 ,..., ... arrive sequentially, where Vt = (it’ct)，U and Ct are respectively 

the name and weight of an item. Let c max and c m i n denote the maximum and minimum item weight 
respectively, meaning c min 《 c t ( c max . 

Definition 1 (Item frequency). The frequency of item i is the total weight of the items with name i 
throughout the data stream, i.e., fi = | (it, q) is among the data stream and it = i} 

However, in the traditional unweighted case, the frequency of an item is just the number of its occur¬ 
rences since c m i n = c max = 1. 

Without loss of generality, assume that items are named integers in the range of [0, n — 1]. We consider 
an n-dimension frequency vector V and its state at time t is Vt- Initially, V is a zero vector. When the 
tth. item (i.e .， Vt) arrives, update the vector V by pair (^, q), namely Vt[it] = V^_i[it] + q. As a result, 
Vt represents the frequency of each item after seeing t items and N = H is the sum of frequencies 
of all t items. 

The problem is defined as follows. Given two user-specified parameters: a support threshold (j) G (0,1), 
and an error parameter e G (0,1) (e <C 0), the algorithm produces a list of items with following guarantees: 

1. output all item i satisfying V[i] ^ (j)N; 

2. output no item i satisfying V[i] < (cj) — e)AT; 

3. errors between true and estimated frequencies are at most eN. 

We say that an algorithm is e-deficient if its output satisfies the above three properties. 

2.2 Related work 

There have been many research works on finding frequent items on data streams [15—24]. They can be 
roughly divided into three groups: counter-based algorithms, sketch-based algorithms and sampling-based 
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Table 1 Worst update time bounds 


Algorithm 

Worst update time 

Reference 

Lossy Counting 

^( 7 ) 

[19] 

Space Saving 

0(log(|)) 

[15] 

CountMin Sketch 

0(log ( 去 )） 

[17] 


algorithms. 

Counter-based algorithms hold a fixed or bounded number of counters for tracking the size of frequent 
items. Whenever an item arrives, if it is monitored, then the associated counter is incremented, otherwise 
decides whether to allocate a new counter or reassign an existing counter to this item. In general, the 
counter-based algorithms only need to increment a counter, which results in low per-item processing 
overhead. However, they will carry out periodic housekeeping tasks to keep memory usage low, such as 
sorting and deleting some counters. The prominent algorithms include Space Saving [15], Frequent [18], 
Lossy Counting [19] and EC [20]. WLC proposed in this paper belongs to this kind of algorithms. 

There are many sketch-based and sampling-based algorithms such as Count Sketch [16], CountMin 
Sketch [17], hCount [21], GroupTest [22] and Sticky Sampling [19]. However, for space reasons, we omit 
the introduction of sketch-based and sampling-based algorithms. 

Not all of the algorithms stated before can handle weighted updates. Among the counter-based al¬ 
gorithms, Space Saving can correctly process weighted updates requiring only 0(log(|)) update time 
[23]. The sketch-based algorithms can directly support weighted updates. However, they need additional 
data information to solve the frequent item problem such as using a heap to track the candidate heavy 
hitters. Furthermore, they usually have high per-item processing overhead due to computing multiple 
hash functions per item. So far as we know, there is few work on using Sticky Sampling to process 
weighted updates. We summarize some worst update time bounds of the algorithms which can handle 
weighted updates in Table 1 for comparison. To the best of our knowledge, there are no algorithms that 
are capable of updating weighted items in constant time (0(1)). 

3 Weighted Lossy Counting 

3.1 Motivation 

Since our work is motivated by Lossy Counting, we will shortly describe its principle below. Lossy 
Counting maintains a data structure T> which is a set of entries of the form (e, /, A), where e is an item 
name in the stream, / is an integer representing its estimated frequency, and A is the maximum possible 
error in f. It virtually splits the input data stream into windows of size , and processes each window 
sequentially. When an item arrives in window z, if it is already in the T>, the associated / is incremented, 
otherwise a new entry is created with / set at one and A set at i — 1. At the end of window z, each 
entry with / + A ^ z is removed from T>. A query is answered by outputing all those entries in T> where 
f>( ♦- e)N. 

Lossy Counting is unfit for identifying heavy hitters in high-speed network monitoring in the following 
two aspects. (1) If we conceptually split the arriving packet stream into windows of [bytes, there may 
be very few packets in one window. For example, if e = 0.0001, the window size is 10000 bytes, thus there 
can be less than 8 packets with 1500 bytes in one window. As a result, the periodic compress operations 
will be carried out too much often. (2) At the end of each window, the algorithm needs to remove entries 
of small frequency from T> which requires a linear scan of the stored items and the time cost can be high 
(0(^-)). This is unacceptable for high-speed applications. 

To solve the first problem, we enlarge the window size from \^~\ to |"|], where the positive integer s 
is the window size factor. Therefore, if 6 = 0.0001 and we set 5 = 1500, there will be at least 10000 
packets with 1500 bytes in one window. And in practice there will be much more packets than that due 
to many small packets (the average packet size is about 400 bytes [25]). Thus, the frequency of carrying 
out compress operations will be greatly reduced as compared to the original window size. However, 
even if we enlarge the window size, we need to perform the compress operations requiring time 
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cost at the end of each window. To solve the second problem, we propose an efficient data structure: 
Partially-Ordered-Stream-Summary (POSS) which is able to perform the compress operations efficiently. 

In POSS, all items whose frequency differences are in the bucket range r (a positive integer) are linked 
together in a doubly circular linked list as a group, and they all point to a parent bucket which also 
records a start value of the group. The start value denoted as svalue is an integral multiple of r. The 
buckets are kept in a doubly linked list sorted by their start values. They can be created and destroyed 
dynamically as new items arrive, where the items can be stored in a hash table for constant amortized 
access cost. Since each item weight is no more than c max , the insert and update operations can be 
accomplished within at most comparisons. Once reaching the boundary of each window, only 

need to free the buckets satisfying svalue + r 彡 eN (at most buckets, see the proof of Theorem 3 in 
subsection 3.4). The detail of POSS will be explained in subsection 3.2. 

POSS is motivated by the data structure of St re am-Summary in Space Saving [15]. Because Stream- 
Summary is a totally sorted list requiring O(c) comparisons to find the right bucket for each item where 
c is the weight of the item, it is unfit for identifying heavy hitters in a high-speed weighted data stream. 
However, POSS is a partially sorted list in essence and requires only O(^) comparisons since all items in 
each bucket are sorted in random order, not by their estimated frequencies. 

3.2 WLC description 

WLC conceptually splits the input data stream into fixed-size windows of w; = |"|], where s ^ 1 is 
the window size factor and e is the error parameter (e 《 1). Each window is indexed by an integer j 
(0 彡 j < 1_ 菩 」）. For each item named i with true frequency /^, we keep track of its estimated frequency 
counti and the maximum overestimation error Si in counti. 

There are three main data structures involved in WLC. The first one is a free entry pool in which 
each entry contains an item name, an estimated frequency and a maximum overestimation error. It is 
implemented in a doubly circular linked list. The second one is a hash table used for constant amortized 
access cost, where the hash collisions can be resolved by chaining in our implementation. The third one 
is a data structure of POSS in which each bucket is indexed by an integer b (0 ^ b ^ L 孕 」）• The group 
of bucket b contains the items satisfying br < counti ( (6 + l)r where br is just the start value of this 
bucket, i.e., svalue = br. However, in practice, we only record the start value svalue in the bucket, in 
such a case b = The initial bucket ID in POSS is 0. 

r 

Algorithm 1 Pseudo-code of Weighted-Lossy-Counting 

Input: Stream S, error parameter e, window size faotor s, 
bucket range r 

Let POSS be the Partial-Ordered-Stream-Summary data 
structure, P be the free entries pool, H be the hash table 
1: Initialize POSS, P and H 
w= rti,j = o,iv = o 
3: for all v = (i,c) £ S do 
4: If i is not in H then 

5: get a new entry entry new from P 

6: remove entry new for H if it is already in H 

7: set e = i,£i = r x Lf」， counti = + c 

8: insert entry new into H 

9: INSERT-FIRST-BUCKET(entrt/ neu; ) 

10: else if counti ^ r x Lf」then 

11: detach the entry containing i entryi from P 

12: set £i = r x Lf」 ， counti = €i c 

13: INSERT-FIRST-BUCKET(entn/i) 

14: else 

15: let Bucket 0 \d be parent bucket of entryi 

16: let svalue 0 id be the start value of Bucket 0 \^ 
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17 

counti = counti + c 

18 

if counti > svalue 0 \(\ + r then 

19 

MOVE-NEXT-BUCKET(entryi) 

20 

end if 

21 

end if 

22 

N = N + c 

23 

if ^ (j + l)w then 

24 

J = j + 1 

25 

for all bucket with ID 彡 _ 1 do 

26 

free all entries in the bucket group into P 

27 

delete this bucket from the bucket list 

28 

end for 

29 

end if 

30 

end for 


WLC is sketched in Algorithm 1. At first, there are no buckets in POSS. When a new item with name 
i and weight c arrives, first lookup the hash table to see whether this item has already been in it or not. 
If the lookup fails, get a new entry from the free entry pool, remove it from the table if exists, let e = i, 
£i = r x counti = q + c, and then insert it into the table and the corresponding bucket group, 

where j is the current window ID. Otherwise if the lookup succeeds, then check whether the estimated 
frequency counti is bigger than r x |_f」or not. If counti 彡 r x L^」, meaning item i has already been 
evicted from POSS (but still remains in the table); therefore it is actually in the pool at the moment. 
As a result, get this entry from the pool and set £i = r x Lf 」， counti = Si c, then insert it into the 
corresponding group. That is, it is not needed to conduct the inserting operation again since item i has 
been still in the table. Otherwise if the lookup succeeds and counti > t x L 1 ^」, then add the weight c to 
counti, i.e., counti = counti + c. If the resultant counti > (bold + 1) x r where 6 0 id is the original bucket 
ID of item z, then remove the entry from its original group and add it into the corresponding group. 
The original bucket is deleted from the bucket list if its group is empty. If there are no corresponding 
groups, create a new bucket with ID |_ com ^ -1 」and start value svalue = r x 丄 」 ,and then insert 

it into the right position of the bucket list. At the end of each window, first increment the window ID 
(j = j + 1) and then free all bucket groups with ID 彡匕孕 」 —1 to the pool. Notice that the freed entries 
are not deleted from the hash table, but will be deleted while they are reassigned to new arriving items. 

Example 1. Assume the bucket range r = 1500, the weighted data stream A = 600), ^ 2 (^ 800), 

vs{Y, 1000), V 4 (X, 1000), 1500)}, where X, Y are the item names and the numbers (600, 800, 1000, 

1500) represent the weights of the items. The data stream S = {^i, ^ 2 } will yield the data structure 
of POSS shown in Figure 1(a), the start value of the first bucket is svalue = 0. When another item 
vs(Y^ 1000) arrives, since county = 1800 > 1500, a new bucket is created with start value svalue = 1500, 
and Y is detached from the first bucket and attached to the new bucket, as shown in Figure 1(b). When 
i ； 4 (X, 1000) arrives, since countx = 1600 > 1500, X gets attached to the bucket with svalue = 1500. 
Because the first bucket group is empty now, it is deleted from the bucket list, as shown in Figure 1(c). 
When v^(Y^ 1500) arrives, since county = 3300 > 2 x 1500, a new bucket is created with start value 
svalue = 3000, and Y gets attached to the new bucket, as shown in Figure 1(d). 

Algorithm 2 Insert the new entry into the right bucket 
1: procedure INSERT-FIRST-BUCKET (entry entry new ) 

2: let Bucket fi rs t be the first bucket of POSS 

3: let svalue fi rs t be the start value of Bucket fi rs t 

4: let countnew be the estimated frequency of entry new 

5: if Bucketfi rs t does not exist then 

6: create a new bucket Bucketnew 

7: let svaluenew be the start value of Bucketnew 

8 ： svaluenew = r X ^ count new-l ^ 

9: insert entrynew into the group of Bucketnew 
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10: insert Bucket ne w as the first bucket of POSS 

11: else if 0 < count ne w — svaluefi rs t ^ r then 

12: insert entry new into the group of Bucketfi rs t 

13: else if countnew ^ svaluefi rs t then 

14: create a new bucket Bucketnew 

15 ： SValue-new = r X [ count new — ^ j 

16: insert entrynew into the group of Bucket new 

17: insert Bucketnew as the first bucket of POSS 

18: else 

19: let Bucket r ight = Bucketfi rs t next 

20: let svalue r i g ht be the start value of Bucket r i g ht 

21: while Bucket r ight exist do 

22: if svalue r i g ht + r > countnew then 

23: break 

24: end if 

25: Bucket r ight = Bucket r i g ht —>• next 

26: end while 

27: if 0 < countnew — svalue r i g ht ^ ^ then 

28: insert entry new into the group of Bucket r i g ht 

29: else 

30: create a new bucket Bucketnew 

31: svalue ne w = r x [ count ^ ,e，u, ~ 1 J 

32: insert entrynew into the group of Bucketnew 

33: insert Bucket new into the right position 

34: end if 

35: end if 

36: end procedure 


Algorithm 3 Move the entry to the next right bucket 
1: procedure MOVE-NEXT-BUCKEt (entry entryi) 

2: let Bucket 0 \d be the bucket of entryi 

3: let counti be the estimated frequency of entryi 

4: detack entryi from the group of Bucket 0 \^ 

5: let Bucket r ight = Bucket 0 \(\ — next 

6: let svalue r i g ht be the start value of Bucket r i g ht 

7: while Bucket r ight exist do 

8: if svalue r ight + ^ ^ counti then 

9: break 

10: end if 

11: Bucket r ight = Bucket r ight next 

12: end while 

13: if svalue r ight < counti < svalue r i g ht r then 

14: insert entryi into the group of Bucket r i g ht 

15: else 

16: create a new bucket Bucketnew 

17: let svaluenew be the start value of Bucketnew 

18: svaluenew = r x [ coun ，- 1 J 

19: insert entryi into the group of Bucketnew 

20: insert Bucketnew into the right position 

21: end if 

22: if Bucket 0 \d is empty then 

23: delete Bucketed from the bucket list 

24: end if 

25: end procedure 
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(a) POSS, S={v v Vo} (b) POSS, 5={w,, »>, v^} 



(c) POSS, S=[i\, ?a>, t; 4 } 


(d) POSS. 5={^, t> 2 , Vj, V 5 } 


Figure 1 Example of updates to POSS with r=1500. 


The Query-Frequent algorithm is given in Algorithm 4. For a query, reversely traverse POSS as a 
sorted list until a bucket with s value + r < (j)N is reached. In each bucket, scan through its group and 
return item i if counti ^ (j)N . Item i is guaranteed to be frequent if counti (f>N. If for each reported 

item z, have counti — Si > cf)N\ then it is guaranteed that all and only the frequent items can be reported. 

Algorithm 4 Reporting the frequent items 
1: procedure QUERY-FREQUENT(support threshold 合 ) 

2: Bool guar ant eed=true 

3: let Bucket be the last bucket of POSS 

4: let svalue be the start value of Bucket 

5: while Bucket exist and svalue + r ^ 4>N do 

6: for all entry in the group of Bucket do 

7: let count be the estimated frequency of entry 

8: let e be the overestimation error of entry 

9: if count ^ 4>N then 

10: output the item name of entry 

11: if (count — e) < (j)N then 

12: guaranteed=false 

13: end if 

14: end if 

15: end for 

16: Bucket = Bucket prev 

17: end while 

18: return (guaranteed) 

19: end procedure 


3.3 Correctness analysis of WLC 

Lemma 1. For each item i in POSS, we have fi ^ counti, where fi and counti are respectively the 
true and estimated frequencies of item i. 

Proof. If item i has never been deleted from POSS, obviously fi ^ counti according to Algorithm 1. If 
item i was deleted from POSS before, we prove by induction. Assume that the current window ID is j, 
then item i was removed from POSS at most j times according to Algorithm 1. Let 1 ( d ( j denote 
the number of eviction times. 
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Basis: The conclusion holds when d = 1. Let j e \ be the window ID, fi e \ and counti e i be respectively 
the real and estimated frequencies when i was first removed from POSS. Let j a \ be the window ID, fi a ± 
and countiai be respectively the real and estimated frequencies when i returned back to POSS after 
first deletion. Consequently, we have j e i 彡 jai, fiei ^ counti e i 彡 r x L ^^」，countiai = r x + c , 

fiai = fiei +c according to Algorithm 1, where c is the weight of item i. Since j e i ^ j a i, fi e i 彡 r x L 气 4 」， 
we have countiai = r x + c > r x + c ^ fi e i + c = fi a i- Let C be the total weights of 

item i since returned back, then counti = countiai + C, /j = /mi + C. Since fi a i ^ countiai , we have 
fi( counti. 

Induction step: Show that d = p — 1 holds, then d = p also holds, where 1 < p ( j. This 
can be done as follows. Let j ep be the window ID, fi ep and counti ep be respectively the real and 
estimated frequencies when i was last removed from POSS. Let j ap be the window ID, fi ap and counti ap 
be respectively the real and estimated frequencies when i returned back to POSS after last deletion. 
Consequently, we have j ep < j ap , count iep < r x count iap = r x L 气 ?^」 + c, f iap = f iep + c 

according to Algorithm 1, where c is the weight of item i. According to hypothesis (the conclusion holds 
when d = p - 1), we have f iep ( count iep . Since j ep ( j ap ， fi ep < count iep ( r x we have 

countiap = r x +c ^ r x +c ^ fi ep + c = fi ap . Let C be the total weights of item i since last 

returned back, then counti = counti ap + (7, /^ = fi ap + C. Since fi ap ( counti ap) we have fi ^ counti. 
Thereby showing that indeed d = p holds. 

Since both the basis and inductive step have been proved, we have fi ^ counti for each item i in POSS. 
Lemma 2. We have fi ^ eN when item i is removed from POSS. 

Proof. According to Algorithm 1, only the items with bucket ID 6 ^ |_ 孕 」 —1 are deleted from POSS at 
the end of each window, where j = , w = |". Since the estimated frequencies of all items in bucket 

b are no more than (6 + l)r, the estimated frequencies of all deleted items are no more than r x L ^ 1 」， 
i.e .，counti < r x 宇 」. Since [^rj < 宇 , j = L^J < 盖 ，切 = 「營 1 > 營 ， we have counti < r* x 孕 」 < 
r x 〒=js ( ^ ^r-s = eN. Therefore, we have counti ( eiV when item i is deleted from POSS. Since 

fi( counti according to Lemma 1, we have fi ^ eN. 

Lemma 3. We have fi ^ eN if item i is not in POSS. 

Proof. If item i never enters POSS, then fi = 0( eN. If item i was deleted from POSS before, then 
fi ^ eN according to Lemma 2, where N is the sum of frequencies of all items when i is removed from 
POSS. Since TV 彡 TV, we have fi ^ eN. 

Lemma 4. We have counti ( fi + eN item % is in POSS. 

Proof. If Si = 0, we have counti = fi and then the conclusion holds. Otherwise, let j denote the window 
ID and N denote the sum of frequencies of all items when i returns back to POSS after last deletion, 
then the maximum overestimation error Si = r x L 孕 」 according to Algorithm 1. Since 匕孕 」 ^ 孕， 
j = L 菩 」 < 菩 ，切 = 「營 1 > 營 ， we have £i ^ r x ^ = js ^ ^ = eN. Let F be the total weights of 

item i since last returning back, then counti = + -F, where F 《 fi. Therefore counti ( fi eN. Since 
N ^ N, we have counti ( fi + eN. 

Theorem 1. WLC is e-deficient. 

Proof. According to Algorithm 4, WLC outputs all item i in POSS with counti ^ . As a result, WLC 

outputs all item i with fi ^ (j)N according to Lemmas 1 and 3. According to Lemma 4, the outputted 
item i satisfies counti ( fi + eN., therefore fi ^ counti — tN > (j)N — eN = (cj) — e)N. Consequently, 
WLC will not output item i with fi < {(j) — e)N. Since 0 ^ counti — fi 《 eN, the error between true and 
estimated frequencies of item i is at most eN. In summary, WLC is e-deficient. 

3.4 Complexity analysis of WLC 

Theorem 2. Let mi=Min(5,r), m 2 =Max(s, r). When rri 2 %mi = 0 and m 2 ^ 2c m i n , WLC uses at 
most log(~~) entries to find all e-deficient frequent items, where s is the window size factor, r is 
the bucket range, c m i n is the minimum item weight. 
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Proof. First consider the memory cost of WLC when 5 彡 r. Let J = L 盖 」 be the current window ID, 
where w = [-]. For each i G [0, J], let di denote the number of entries in POSS which are observed in 
window J — i. The item corresponding to such an entry must have at least r x g」（Cmin when i = 0) 
weights in window J — i through J; otherwise it would have been removed from POSS. This is because 
the estimated frequencies of items remaining in window J are at least r x L 令 」， and the items observed in 
window J — i through J must have at least r x 令 」 —r x = r x + $」 —r x j ^ r x 

L ( J ; 2 )s 」+”x Lg」—”x L ( J ; 2 )s 」=tx L$ 」 weights. Since the current window ID is J, Jw ( N ( {J-\-\)w. 
As a result, we have the following constraints: 


j 

^O^min ~t*" 〉: X T X 


彡 (j + l)w for j = 1,. 


⑴ 

( 2 ) 


If s%r = 0 and s 彡 2c m i n , we have 
3 


^O^min "t - 〉 : X T X = d()C m [ n + 〉: d{is ^ ^O^min E di2ic n 


j+i 


^ c?oc m i n + 〉: di {i -\- l)c m j n = 〉: idi—ic m i n for j = 1, • •. ， t/. (3) 


Thereby, 


j'+i 


^ (j + 1)-^— for j = 0,1,..., J. 


Using the same proof method as in [19], we have 

j'+i j'+i 


^ Y1 . 


w 


for j = 0,1,..., J. 


⑷ 


( 5 ) 


Consequently, the number of entries in POSS is 
j+i j+i 


E t v — ^ 丄 W 

< — lo s(-/ + i) 

0 ^min L-rr 




Then consider the memory cost of WLC when r ^ s. If r%5 三 0, the memory cost of WLC with 
window size factor s and bucket range r is the same as that of WLC with window size factor r and 
bucket range r. Assume r = ks, where A: is a positive integer. According to Algorithm 1, WLC frees 
buckets with ID < L 孕」 =l_f」 a t the end of window j. Consequently, WLC with window size factor s and 
bucket range r only can prune the obsolete buckets once every k windows. According to Algorithm 1, the 
maximum estimation error in window j is e: = r x Lf 」=r x L 务 」. As a result, the new items share the 
same maximum overestimation error in k continuous windows. If | is integral, kw = ^|"f 1 = 「亨 1 = 
is equal to the window size of WLC with window size factor r. Therefore, the memory cost of WLC in 
this case is the same as that of WLC with window size factor r and bucket range r. Consequently, when 
r%5 三 0 and r > 2c m i n , the number of entries in POSS is at most - 1 — log(—). 

In summary, when s%r 三 0 and s ^ 2c m i n , WLC uses at most log ( 手 ) entries, and when r%s 三 0 
and r > 2c m i n , WLC uses at most —r— log(^) entries. 

Theorem 3. WLC needs 0( Cma ^ +s ) update time (including hash operations) per item in the worst-case, 
where 5 is the window size factor, r is the bucket range, c max is the maximum item weight. 

Proof. When a new item arrives, first check whether this item is in the hash table or not, which requires 
amortized 0(1) time. According to Algorithms 2 and 3, at most comparisons are needed in the 

while loop. According to Algorithm 1, at most |"buckets will be freed in the for loop at the end of 
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each window. In window only the buckets with ID ^ |"^f] — 1 will be freed. Since the minimum 
possible ID is 「 。: 1 )” ， the maximum possible number of buckets to be deleted is — 「 。： 1 )” = 

「(": 1 ) 5 + 彡 「 。: 1 )” + 「吾 1 — 「 。: 1 )” — rrl - Because the bucket group is organized in a 

doubly circular linked list, it requires only 0(1) time to free it into the free entry pool. As a result, in 
the worst-case, WLC needs 0( Cma ^ +s ) time to process a new arriving item. 

Notice that our time bounds include the hash operations. Since hash operations have a very unfavorable 
worst-case performance in theory, strictly speaking, they are not the worst-case bounds. 


Algorithm 5 Pseudo-code of optimized WLC 
Input: Stream S, error parameter e, bucket range r 
Let POSS be the Partial-Ordered-Stream-Summary data 
structure, p be the free entries pool, H be the hash table 
1: Initialize POSS, P and H 
2: △二 0,7V = 0 

3: let svalueist be the start value of the first bucket 
4: let entryist be the first entry of the first bucket group 
5: let countist be the estimated frequency of entryist 
6: for all 1 ； = (i, c) G 5 do 
7: N = N + c 

8: if i is not in H then 

9: if entryist exist and count\ s t ^ eN then 

10: remove entryist from H 

11: if countist > A then 

12: A = countist 

13: end if 

14: set e = i,ei = A, counti = £i -\- c 

15: insert entryist into H 

16: if counti > svalueist + r then 

17: MOVE-NEXT-BUCKET(entr 2 /i st ) 

18: end if 

19: else 

20: get a new entry entry ne w from P 

21: set e = i,€i = A, counti = £i c 

22: insert entry new into H 

23: INSERT-FIRST-BUCKET(entry ne 扣 ) 

24: end if 

25: else 

26: let Bucket 0 \d be parent bucket of entryi 

27: let svalue 0 id be the start value of Bucket 0 \^ 

28: counti = counti + c 

29: if counti > svalue 0 \^ + r then 

30: MOVE-NEXT-BUCKET(entryi) 

31: end if 

32: end if 

33: end for 


3.5 Optimized WLC 

In WLC, entries are only freed at the end of each window. Therefore, if they can be freed before the end 
of each window, the memory cost can be reduced. The main idea is described as below. Let b denote the 
first bucket ID in POSS. According to WLC, bucket b contains item i with br 1 ^ counti 彡(石 + 1)^ 
and will not be freed until N ^ Ni = (when s = r). However, the smallest estimated frequency in 

bucket b may be 6r + 1， and this entry can be freed as soon as TV 彡 iVo = Since Ni_ Nq = > 0, 
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that is to say, the memory cost can be reduced before reaching the window boundary. In practice, if 
the newly arriving item is not monitored, then check the first entry of the first bucket. If its estimated 
frequency ^ eiV, then take this entry for the new item. Otherwise, create a new entry. The optimized 
WLC (OWLC) is sketched in Algorithm 5. In OWLC, A is used to keep track of the maximum estimated 
frequency of those replaced items which also represents an upper bound on the overestimation error. It 
is easy to prove that the OWLC is e-deficient, and the proof detail is omitted for space reasons. 


4 Experimental evaluation of WLC 

In this section, we present some experimental results obtained by the algorithms of WLC, OWLC, Space 
Saving and Lossy Counting applied on three real traffic traces. 

In the following experiments, we track the heavy hitter flows defined by the famous five-tuple and 
consider TCP and UDP traffics only. All the algorithms were implemented in C++, and used common 
subroutines for similar tasks to increase comparability (e.g., the same flow hash function of “XOR Five- 
Tuple Folding” [26]). We ran experiments on 2 Intel Quad-Core Xeon E5405 processors (2.00 GHz) with 
4 GB of RAM running CentOS 5.2. The codes were complied using g++ 4.1.2 with “-02” optimization 
option. Our implementations were based on Graham Cormode’s code [27] which was an extension of the 
MassDAL library [28]. 

The CERNET trace collected at an OC48 link of CERNET (China Education and Research Network) 
on May 31, 2007 contains only TCP headers for both directions. The CAIDA-OC48 trace [29] is an 
anonymized packet header trace measured at an OC48 west coast peering link on August 14, 2002 and we 
use the first hour traffic of one direction (Direction-1). The CAIDA-OC192 trace [30] contains anonymized 
passive traffic traces from CAIDA’s equinix-sanjose monitor on OC192 Internet backbone links on July 
17, 2008 and we use the first 18 minute traffic of one direction (Direction-A). The characteristics of the 
traffic traces are given in Table 2. Notice that we only list the approximate numbers of TCP, UDP 
packets and flows. 

We use the following five metrics as in [23] to measure the performance of the algorithms: 

• Update throughput, measured in the number of updates per millisecond. 

• Memory cost, measured in the number of counters that need to be maintained. 

• Recall, measured in the number of true heavy hitters reported over the total number of true heavy 
hitters. 

• Precision, measured in the number of true heavy hitters reported over the total number of heavy 
hitters reported. 

• Average relative error of the reported frequencies. The average relative error of the frequencies of 
the true heavy hitters and the average relative error of the frequencies of the false positive answers are 
measured separately. 

In subsections 4.1 and 4.2, for all of the above, we perform 20 runs per experiment using the first 10 
million TCP and UDP packets from each trace. In other words, for each trace we divide the first 10 
million packets into 20 chunks and query the algorithm once at the end of each run. We report averages 
of update throughput, recall, precision and average relative error on all graphs. For memory cost, we 
report the maximum number of counters ever needed throughout the whole experiment. Unless otherwise 
stated, (j) = 0.001 and e = 0.0001. 


Table 2 Characteristics of traffic traces used 


Traces 

Packets (million) 

Flows (million) 

Duration 

CERNET 

1940 

85 

9 h 

CAIDA-OC48 

420 

27 

1 h 

CAIDA-OC192 

400 

27 

18 min 
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4.1 Parameter selection 


Besides the support threshold (p and error parameter e, there are two user-selected parameters in WLC: 
window size factor s and bucket range r. 

Although the values of s and r can be chosen arbitrarily, in practice we usually restrict s > r. According 
to the proof of Theorem 2, if 5 < r, some prunes at the window boundary will be useless as there are no 
obsolete buckets to be freed. Therefore we restrict 5 彡 r in the experiments. 

In this section, we first explore how different values of 5 and r affect the performance of WLC. And 
then, we discuss how to choose appropriate parameter values for 5 and r. Since the recall, precision and 
average relative error remain unchanged when s and r vary in the experiments, we just report the effect 
of s and r on the update throughput and memory cost in WLC. 


4.1.1 The effect of window size factor s 

Recall that s affects the memory cost of WLC when s 彡 r (see Theorem 2). Figure 2 shows the memory 
cost in WLC with s varying from 100 to 1500 and r = 100 for all three traces. From this figure we can 
see that the memory cost shows an almost linear rise with increasing 5 , which is consistent with Theorem 
2. This is because a larger window can be used to observe a larger number of distinct items so that the 
number of needed counters has to be increased. Figure 3 shows the curves of the update throughput in 
the same case. As can be observed, the update throughput stays almost unchanged with increasing s. As 
a result, we can see that for a fixed r, all the metrics except the memory cost are almost not influenced by 
s. Since the memory cost of WLC keeps almost unchanged with increasing r for a fixed s (see subsection 
4.1.2), in summary, s is a key parameter of governing the memory cost when s > r. 


4.1.2 The effect of bucket range r 

Recall that r affects the update throughput of WLC (see Theorem 3). Figure 4 shows the memory cost in 
WLC with r varying from 100 to 1500 and s=1500 for all three traces. As can be observed, the memory 
cost stays almost unchanged as r increases. This is because the memory cost is determined by 5 fixed 
in this experiment. Figure 5 shows the curves of the update throughput in the same case. From this 
figure, we can see that the update throughput rises as r increases. This result is consistent with Theorem 
3. As a result, we can see that for a fixed s, all the metrics except the update throughput keep almost 
unchanged with the increase of r. And according to the discussion in subsection 4.1.1, it is known that 
the update throughput stays almost unchanged with the increase of s when r is fixed. This is because 
according to the proof of Theorem 3, s only affects the number of buckets to be freed at the end of each 
window, while r affects the number of comparisons to find the right bucket for each new item. Since 
many new items will arrive in a window, r is a dominant parameter of governing the update throughput. 

4.1.3 Dimensioning WLC 

As discussed in subsections 4.1.1 and 4.1.2, the memory cost increases with s and the update throughput 
increases with r. Since s ^ r, we usually set s = r in practice. 
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Figure 2 Memory cost versus s with r=100. 


Figure 3 Update throughput versus s with r=100. 
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Figure 4 Memory cost versus r with s=1500. 



Figure 5 Update throughput versus r with s=1500. 


Here we describe three methods to select an appropriate value for 5 (as well as r since r = s'). The 
first method is to use the available memory resources and the memory bound of WLC to derive a value 
of 5 . Setting the memory bound to the available memory resources and solving for s give a parameter 
choice that guarantees WLC will not exceed the available memory resources. The disadvantage is that 
WLC will not fully make use of the available memory resources as a result of the elephant and mice 
phenomenon in real network traffic. 

The second method is to empirically evaluate the memory cost of WLC in the target environment using 
training data. Therefore, we can measure the maximum memory cost of WLC for different values of s. 
Selecting the value of s that results in maximum memory usage close to the available memory resources 
addresses the over-provisioning problem of the first method. However, the limitation is that it relies on 
training data for the target environment and requires conducting experiments to derive 5 . 

Both of the above methods rely on the available memory resources; however, the third method is based 
on the update time. For example, if we need to identify heavy hitters in high-speed network monitoring 
where the update time is the most important metric, we can set s = r = c max . Then according to 
Theorem 3, the worst update time of WLC is 0(1). On the other hand, the limitation is that there must 
be enough available memory resources. However, if the memory space is not a critical issue, this method 
is the implementation of choice. 

In summary, the choice of methods to determine the parameter values in WLC depends on the priorities 
and requirements of a system designer. 

4.2 Evaluation and comparison 

For insert-only streams, Space Saving delivers the best performance among all the frequent item identi¬ 
fication algorithms proposed [23], thus we make a comparison between WLC, OWLC and Space Saving. 
Since WLC is extended from Lossy Counting, its performance is included in the comparison as well. We 
vary (j) from 0.001 to 0.01 and set e = 0.10. The parameters are s = r = 600 which lead to a relatively 
high update throughput and a relatively low memory cost. 

4.2.1 Speed comparison 

Figure 6 shows the update throughput of the algorithms as a function of the increasing frequency support 
threshold (j). We can clearly see that the range of frequency support threshold ⑷ considered does not 
affect the update throughput. Among the four investigated algorithms, Lossy Counting is the slowest. 
This is because Lossy Counting tends to frequently carry out the compress operations requiring a linear 
scan of the stored items. Both WLC and OWLC are consistently faster than Space Saving, especially 
OWLC which is more than two times faster than Space Saving. This is because WLC and OWLC can 
guarantee constant update time for items in POSS, while Space Saving uses a data structure of heap 
which entails 0(log(|)) operations. 
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Figure 6 Speed versus S. 
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Figure 8 Recall versus 4>. 


Figure 9 Precision versus (f>. 


4.2.2 Space comparison 

Figure 7 plots the number of counters consumed by each algorithm. For all the algorithms, the space 
used decreases with the increase of (j). This is because smaller cj)’s imply a significantly larger number 
of candidates exceeding the frequency threshold that need to be maintained. As can be observed, Lossy 
Counting has the smallest memory cost when (j) is small. However, with the increase of </), the memory 
costs of Lossy Counting and Space Saving get close to each other. And both of them are less than the 
memory costs of WLC and OWLC. Since OWLC carries out the compress operations earlier than WLC, 
it requires less memory than WLC. 

4.2.3 Recall comparison 

Figure 8 plots recall. Since all the algorithms guarantee to return all (j) frequent items, we expect 100% 
recall, which is observed in the figure. 

4.2.4 Precision comparison 

Figure 9 plots precision. Since the algorithms possibly return false positives, precision is an indication of 
the number of false positive answers. There is no clear distinction between different algorithms in this 
case (e = 0.10). All the algorithms yield more than 90% accuracy in all cases. Increasing e relative to (j) 
(e.g., e = 4>) results in worsening the precision for all the algorithms including Space Saving and we omit 
the experimental results here for space reasons. 

4.2.5 Average relative error comparison 

Figure 10 plots the average relative error in the frequency estimation of the true heavy hitters. Generally 
speaking, all the algorithms are able to track the exact frequencies of the true heavy hitters with high 
accuracy. Figure 11 shows the average relative error in the frequency estimation of false positive answers. 
All the algorithms yield less than 0.05 estimation error in all cases. In summary, Space Saving has the 
smallest average relative error; however, the estimation errors of all the other algorithms are also very 
small which means they can yield a good estimation of the frequency as well. 
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Figure 7 Memory cost versus (f). 
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Therefore, from the above evaluation and comparison we can see that WLC, OWLC, Space Saving and 
Lossy Counting share similar performance in terms of recall, precision and average relative error. However, 
by selecting appropriate parameter values for s and r, WLC and OWLC have a much higher update 
throughput while Space Saving and Lossy Counting yield a lower memory cost. Among them, Lossy 
Counting has the lowest update throughput which is only about one thirtieth of the update throughput 
of WLC, as a result it is not suitable for real-time processing. Space Saving has a low memory cost; 
however, it has to sort all the arriving items in a heap requiring 0(log(^)) operations per item, therefore 
it is not suitable for high-speed network monitoring either. By setting s = r = c max , WLC guarantees 
constant worst update time at the cost of relatively high memory space used. In summary, WLC is 
preferred when the update throughput is of the prime importance among all the metrics of interest. 

4.3 Memory cost in practice 

A glance at Theorem 2 suggests that WLC shall require space that grows logarithmically with N. How¬ 
ever, this theorem does not tell the whole story because it bounds the worst-case space which corresponds 
to a rather pathological data stream that would almost never occur in practice. Therefore, we studied 
the memory cost of WLC when it was used to identify heavy hitters in extremely large network traffic. 
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Figure 12 Memory cost versus number of packets. 
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Figure 13 Maximum memory cost versus number of packets. 
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Figure 12 shows the memory costs of WLC in three different traces. Here we explore two cases: 
s = r = 600 and s = r = 1500. From this figure we can see that the memory costs in both cases 
fluctuate between 6000 and 20000 as a result of the periodic compress operations in WLC at the end 
of each window. Furthermore, the fluctuation range in case s = r = 600 is much less than that in case 
s = r = 1500. This is because a smaller window size factor s will lead to pruning the low frequency items 
more frequently. 

Figure 13 plots the maximum memory costs of WLC in three different traces. At any time, the 
maximum memory cost refers to the biggest number of counters used by WLC previously. As shown in 
this figure, with the increase of packet number, the maximum memory costs increase rapidly at first, and 
then change to be steady and persisted. As expected, the maximum memory cost in case s = r = 600 is 
much less than that in case s = r = 1500. 

In summary, in practice WLC requires much less space than the worst-case bound and the maximum 
memory cost does not increase with N all the time, but changes to be steady and persisted. 

5 Conclusions 

In this paper we introduce and motivate a need of identifying heavy hitters in high-speed network moni¬ 
toring with constant per-item update time. We explain why existing methods for tracking heavy hitters 
are not suitable for high-speed network monitoring. For solving this problem, based on the Lossy Count¬ 
ing algorithm, a heavy hitter identification algorithm of WLC is proposed. The algorithm employs a 
novel partially ordered data structure of POSS which is able to provide a fast per-item update speed 
while keeping the memory cost relatively low. 

There are two key parameters involved in WLC, window size factor s and bucket range r. In practice, 
we usually restrict s ^ r. The theoretical analysis and real traffic experiments show that 5 is the key 
parameter of governing the memory cost while r is the dominant parameter of determining the update 
throughput. Therefore, WLC is able to provide a tradeoff between the update throughput and memory 
cost which greatly benefits the scalability of this algorithm. That is, WLC is capable of updating per-item 
in constant time at the cost of relatively large memory space used. On the other hand, WLC can reduce 
the memory space used at the cost of a relatively low update throughput. By setting s = r = c max , 
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WLC can guarantee constant worst update time (0(1)) which should be preferred in high-speed network 
monitoring. 

WLC is compared to the state-of-the-art algorithms for finding heavy hitters in terms of five metrics 
(update throughput, memory cost, recall, precision and average relative error) on real traffic traces. The 
experimental results show that WLC performs well in recall, precision and average relative error as other 
algorithms. However, WLC exhibits a much higher update throughput than others at the cost of relatively 
larger memory space used. The maximum memory cost of WLC is also investigated through long real 
traffic traces. The results show that in practice WLC requires much less space than the theoretical worst- 
case memory bound and the maximum memory cost does not increase with the total traffic observed all 
the time, but changes to be steady and persisted. This characteristic will be very helpful especially when 
the available memory resource is limited. 
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跨领域倾向性分析相关技术研究 

吴琼 u ， 谭松波 S 张刚 \ 段沭毅、程学旗 1 

(1. 中国科学院计算技术研究所，北京 100190 ； 2. 中国科学院研究生院，北京 100049) 

摘 要： 该文主要研究文本的倾向性分析问题，即判断文本中的论断是正面还是负面的。已有的研究表明，监督分 
类方法对倾向性分析很有效。但是，多数情况下，已有的标注数据与待判断倾向性的数据不属于同一个领域，此时 
监督分类算法的性能明显下降。为解决此问题，该文提出一个算法，将文本的情感倾向性与图排序算法结合起来 
进行跨领域倾向性分析，该算法在图排序算法基础上，利用训练域文本的准确标签与测试域文本的伪标签来迭代 
进行倾向性分析。得到迭代最终结果后，为充分利用其中倾向性判断较为准确的测试文本来提高整个测试集倾向 
性分析的精度，将这些较准确的测试文本作为“种子”，进一步通过 EM 算法迭代进行跨领域倾向性分析。实验结 
果表明，该文提出的方法能大幅度提高跨领域倾向性分析的精度。 

关 键词： 计算机 应用； 中文信息 处理； 跨 领域； 倾向性 分析； 图 排序； E M 算法 
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Research on Cross-Domain Opinion Analysis 

WU Qiong 1 ' 2 , TAN Songbo 1 , ZHANG Gang 1 , DU AN Miyi 1 , CHENG Xueqi 1 
(1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190 ， China ； 

2. Graduate School of CAS, Beijing 100049 ， China) 

Abstract : This paper focuses on the opinion analysis of documents? i. e. to determine the overall opinion (e. g. ， neg¬ 
ative or positive) of a given document. Existing studies have shown that, the supervised classification approaches u- 
sually perform well in this task. However，in most cases, the performance decreases sharply when the model is 
transferred from the labeled data domain to a different target domain without labeled data. This raises the issue of 
cross-domain opinion analysis. In this paper, we propose an iterative algorithm which integrated the opinion orienta¬ 
tions of the documents into the graph-ranking algorithm for cross-domain opinion analysis. We apply the graph¬ 
ranking algorithm using the accurate labels of old-domain documents as well as the “pseudo” labels of new-domain 
documents. Over the results of the iterative algorithm，we try to further improve the performance by choosing the 
test documents whose opinions have been determined more accurately as “seeds”，and applying the EM algorithm a- 
gain for cross-domain opinion analysis. The experiment results indicate that the proposed algorithm could improve 
the performance of cross-domain opinion analysis dramatically. 

Key words : computer application ； Chinese information processing ； cross domain; opinion analysis ； graph ranking ； 
EM algorithm 
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1引言 

近年来，随着互联网快速发展，论坛、博客等网 
络交流平台不断涌现，人们越来越习惯于在网上发 
表主观性的言论，这些言论用于表达自己对于日常 
事件、产品、政策等的观点和看法，这使得网上存在 
大量带有情感倾向性的文本。那么如何对这些有主 
观情感的文本进行分类，判断其是正面还是负面，是 
持支持态度还是反对态度，这就引出了自然语言处 
理领域一个重要的研究方向——倾向性分析。该技 
术有很多实际应用，越来越引起广泛关注（如文献 
[1-6])。 

作为传统文本分类 [81 ° ] 的一个特殊分支，典型 
的监督分类方法都适用于文本倾向性分析。然而， 
当训练数据与测试数据不属于同一个领域的时候， 
典型的分类方法的效果就变得很差。这是由于训练 
域里有强烈倾向性的词在测试域里不再有强烈倾向 
性，反之亦然。由此产生了跨领域倾向性分析问题 
(也称为跨领域情感分类问题） [11 13] 。随着信息量 
的急速增加、新领域的不断涌现，人们需要在大量新 
领域里进行倾向性分析，这是个费时费力的事情。 
因此要尽量基于已经标注好的数据对新领域进行分 
析，这使得跨领域的倾向性分析具有重要意义。 

跨领域倾向性分析是一个全新的研究领域，目 
前的研究工作还比较少。现有的一些技术主要分为 
两类： 第一类需要在测试域标注少量数据来辅助训 
练，如文献 [11] 等; 第二类在测试域不需要任何标注 
好的数据，如文献 [12-13] 等。本文主要针对应用更 
为广泛的第二类情况。 

为解决不需任何测试域辅助数据的倾向性分析 
问题，本文将文本的倾向性与图排序算法结合，提出 
一种基于图排序的跨领域倾向性分析算法。该算法 
为测试集中的每一个文本分配一个情感分，来表示 
该文本“支持”或“反对”的程度，然后利用源领域的 
准确标签和目标领域的伪标签来迭代计算该情感 
分，算法收敛时得到最终情感分，并据此判别目标领 
域测试数据的倾向性。得到倾向性判别结果后，为 
充分利用其中倾向性判断较为准确的测试文本来提 
高整个测试集倾向性分析的精度，我们将这些较准 
确的测试文本作为“种子”，进一步通过 EM 算法迭 
代进行跨领域倾向性分析。针对以上部分，我们分 
别进行了实验。实验结果表明，本文提出的方法能 
大幅度提高跨领域倾向性分析的精度。 


2相关研究 
2.1 倾向性分析 

倾向性分析的目的是判断文本的情感类别，即 
该文本对某一主题是持支持还是反对态度。根据实 
现的方法可分为基于词的倾向性分析和基于机器学 
习的倾向性分析。 

2 . 1.1 基于词的倾向性分析 

词为构成文本的单元，因此可以先判断词的倾 
向性，再根据此信息来判断文本的倾向性。 

Tumey [15] 提出了 PMI - IR 方法，利用词语与具 
有明显语义倾向性的种子词语之间互信息关系来判 
别词语的倾向性； Hatzivassiloglou 等 [16] 认为形容 
词的倾向性受连接它们的连接词约束，他们提出一 
种四步法的监督算法来判断形容词的倾向性。 

得出词的倾向性后，可以通过统计具有正面倾 
向性和负面倾向性的词语数目来判断文本的倾向 
性。 Tumey [17] 提出一个无监督学习方法，求出文本 
中所有短语的倾向性的平均值，根据其正负来判断 
文本的倾向性。 

2. 1.2 基于机器学习的倾向性分析 

文本倾向性分析可以看作是一种特殊的分类， 
即根据文章中对某一主题的观点（支持或反对、高兴 
或悲伤等）对文本进行分类，因此可将机器学习算法 
用于倾向性分析。 B . Pang 等 [1 «以电影评论作为语 
料，将三个典型的机器学习方法用于倾向性分析，实 
验结果表明机器学习方法对倾向性分析效果很好。 
H . Cm 等 [19] 用不同的机器学习算法对大规模在线 
产品评论进行实验，实验结果表明带有高阶 n 元特 
征的分类器可以达到更好的性能。 

本文即在机器学习方法的基础上进行跨领域倾 
向性分析。 

2.2 移植学习 

移植学习是指利用其他领域或时间段的数据来 
辅助当前学习。作为机器学习领域一个重要研究方 
向，有许多学者对此进行研究并产生出很多算法（如 
文献[20-22 ])。 Daume III . 只等 [2 ° ] 使用一个特有 
的高斯模型研究统计自然语言处理领域的移植学 
习 。 Dikan Xing 等》 1] 提出一个名为“桥优化”的算 
法来解决移植学习问题 。 Jing _^ 1 ^等 [22] 提出一个 
两阶段法来解决移植学习问题。其算法的基本思想 
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是：第 一阶段，即泛化阶段，得到在各领域之间通用 
的一些特征；第二阶段，即适应阶段，找出特定于目 
标域的有用的特征。 

然而，以上工作均没有将领域移植用于倾向性 
分析领域，本文将提出算法，解决跨领域倾向性分析 
问题。 

3基于图排序模型的跨领域倾向性分析算法 
3. 1 算法描述 

我们定义跨领域倾向性分析问题 如下： 

测试集 D 17 = { 4，…， < i „} 和训练集= { d„+i , 
…，尤+„}，其中 A 表示第 i 个文本的向量，每一个 
文本应该有一个来自类别集 C ={ 支持，反对 } 中的 
标签。每一个测试文本没有被 
标注，每一-个训练文本6 Dh (_/ = «+ 1，…， W +7 W ) 
已经被标注了一个类别 c 中的标签。假设测试数 
据集和训练数据集 D 1 •来自相关但不相同的领 
域。本算法的目标是利用另一个领域的训练数据集 
D L 来对测试数据集中的每一个文本 t /, e D u ( i = 
1，…，》)分配一个 C 中的标签，使得准确率最高。 

本算法基于以下前提： 

(1) 用 wt 表示旧领域的词空间 ， w u 表示新领 
域的词空间，且 n w u ^ o 

(2) 如果一个文本既存在于训练集中，又存在 
于测试集中，则标签一致。 

图排序算法（如 PageRank [u] ) 的思 想是： 图中 
与其他重要节点紧密相联的节点也很重要。该算法 
已成功应用于很多领域。基于图排序思想，我们认 
为如果一个文本与一些具有支持(反对)态度的文本 
紧密联系，则它也很可能持支持(反对）态度，这也是 
邻域学习思想。 

因此，我们将训练集和测试集看作一个图，每一 
个文本为图中的一个节点。给每一个节点一个表示 
其情感类别的分数，称其为情感分。本文提出的算 
法将文本情感类别间的关系与 graph-ranking 算法 
结合起来。对于每一个待标注文本，算法通过其在 
训练域和测试域的邻域来计算它的情感分，并用一 
个统一的公式进行迭代计算，当算法收敛时，得到待 
标注文本的最终情感分。如果一个节点的情感分在 
一 1到0之间，表示这个节点所代表的文本是持反 
对态度，情感分越接近于一 1，此文本越倾向于反对 
态度； 如果一个节点的情感分在0到1之间，表示这 


个节点所代表的文本是持支持态度，情感分越接近 
于1，此文本越倾向于支持态度。 

3.2 基于图排序模型的跨领域倾向性分析算法 

3.2. 1 算法初始化 

第一步，本算法需要为训练集与测试集中每一 
个文本的情感分赋初始值，得到初始情感分向量 
s — W 0 )， …，4®， S %,-, d }。 对于训练集中 
的文本，它们已经有正确标签。对于测试集中的文 
本，使用典型的文本分类算法中的任一种分类器，用 
训练集训练，对测试集分类得到一个伪标签（此时的 
准确度通常很低）。对于每一个文本，如果它分配到 
的标签是“反对”，则将它的情感分赋为一1;如果它 
分配到的标签是“支持”，则将它的情感分赋为1。 

第二步，为保证最终程序的收敛性，将测试集对 
应的情感分初始值4 ° 1 ( Z =1,…， 《) 归一化，使得正 


的情感分的和为1，负的情感分的和为 

5 2 (0) = ^ 


/s (-#)， 

if s \ 

°〉〈0 


A 

i ^ ta . 

if 

0) >0 


( 1 ) 

其中和分别表示1^中的“反对”、“支 
持”文本集。同式 （1) 一样，将训练集对应的情感分 
初始值 i .)。) 0' = w + l , ••- ，《 + ?«)归一化。 

3.2.2 情感分计算策略 

得到初始情感分向量 S ° 后，即可利用训练域的 
准确情感分和测试域的伪情感分来迭代计算测试集 
的最终情感分。 

1) 利用训练集的准确情感分来计算测试集的 
情感分 

建立一个图模型，节点表示和中的文本， 
边表示文本间的内容相似度。内容相似度此处用余 
弦相似度来计算。我们使用一个联接矩阵[/来表示 
和间的相似矩阵。 ,]„><„« 定义 如下： 

rj _ d , • dj 

— II d , II X || d t II ， 

i = 1, •••, ?? = ?? + 1 ， …， w + m (2) 

其中特征〖的权重用来计算。为保证 

算法收敛，将联接矩阵 U 归一化为矩阵&，使得中 
每一'彳了的和为1: 

j=i j=i 

0, otherwise 
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为了找出与一个文本最相似的文本集（此处设 
此文本集大小为 K ) ，我们对&的每一行进行降序排 
列得到，也 就是 ： b (i = l ,- n ； j , k = l ,- 
。 因此对于 c /,. 6 (z = 1 ,•••,?;) , Uy (j = 

1，…， iO 就表示它在训练域中的 K 个邻居。我们 
使用矩阵 N =[ N , 5 ]„ XK 来表示在训练域中的 K 
个邻居，其中 Ny 对应于 c /, 的第 j 个邻居。 

最后，用 A 邻居们的分数来计算它的情感分， 
公式如下 所示： 

S- k> = 2 ^ ^ ' Z.= l ，._.，《 ⑷ 

ieJVj. 

其中，/表示矩阵的第 i 行，表示第々次迭代 
时的情感分 

2 ) 利用测试集的“伪”情感分来计算测试集的 
情感分 

类似于上一节所述，建立一个图模型，节点表示 
D u 中的文本，边的权重由它所连接的两个文本的 
余弦相似度来计算。我们使用一个联接矩阵 V 来 
表示测试集之间的相似矩阵 ， gP V = [ V y ]„ x „ 。同 

样，我们将 V 归一化为1>，然后将1>的每一行进行降 

序排列得到尹，因此得到一个在测试域中的邻居 
矩阵 M = [ Mj ] „ x K 。最后，利用测试域的伪情感分 
来计算测试集的情感分如公式 （5) 所示： 

s ”） = 2 (% X i^- 1 )) ，/ = 1，._.，h (5) 

3.2.3 算法迭代过程 

本算法要同时利用训练域和测试域的信息来对 
测试域的文本进行标注，因此综合公式（4)、（5)，得 
到迭代计算测试数据集的情感分的公式如下 所示： 

=« 2 x 4*— ” ） 

ieiv；. 

+/? (v ih x4*— ” ） ，，. = 1 ，...，《 (6) 

*eM.. 

其中 a +/3= l , a 和 /? 分别表示训练域和测试域 
对最终情感分的贡献大小。为保证算法收敛，算法 
每迭代一次都需要将 S 归一化（如公式（1))，迭代 
计算情感分 S 并归一化，直到收敛为止。 

4基于 EM 思想的跨领域倾向性分析方法 

得到基于图模型的跨领域倾向性判别结果后， 
我们充分利用其中倾向性判断较为准确的测试文本 


来提高整个测试集倾向性分析的精度，进一步通过 
EM 算法迭代进行跨领域倾向性分析。 

EM 算 法 ㈨ 」是进行极大似然估计的一种有效 
方法。之所以命名为 EM ， 是因为算法的每一次迭 
代包括两步：第一步求期望 （Expectation Step ), 称 
为 E 步；第二步求极大值 （ Maximization Step ) ，称 
为 M 步。它是一种迭代方法，每一次迭代都保证似 
然函数值增加，最终收敛于一个局部极大值。然而， 
它又不是直接对复杂的后验分布求极大化，而是在 
观察数据的基础上添加一些“种子数据”，从而简化 
计算并完成一系列简单的极大化模拟。 

我们基于 E M 算法的思想，从上一节算法的测 
试集倾向性分析最终结果中选出一部分分类最准的 
文本作为“种子”，保持这些“种子”文本的类别不变， 
其余测试集中的文本根据与这些“种子”之间的相似 
程度进行迭代计算，如果一个文本与一些具有支持 
(反对)态度的“种子”文本紧密联系，则它也很可能 
持支持（反对)态度，算法收敛时，得到测试集的最终 
倾向性分析结果。 

具体算法如下： 

第一步，挑选种子文本。将上一节算法得到的 
最终测试集情感分由高到低进行排序，分别将排序 
列表中最前和最后 P /2 个文本作为种子（其中 P 为 
待选种子占整个测试集文本数的百分比）。其中前 
P /2 个文本是最有可能持支持态度的文本，最后 P / 
2个文本是最有可能持反对态度的文本。 

第二步，情感分初始化。根据上一节中的判断 
结果，将测试集中每个文本的情感分初始化，如果它 
分配到的标签是“反对”，则将它的情感分赋为一 1; 
如果它分配到的标签是“支持”，则将它的情感分赋 
为1。然后将这些情感分利用公式 （1) 进行归一化。 

第三步， EM 迭代计算。在上一节中，我们已经 
得到一个在测试域中的邻居矩阵]^= [ M , 7 ]„ XK 
以及利用测试域的情感分来计算测试集的情感分公 
式（5)。此时，保持种子文本的情感分不变，其余文 
本由公式 （5) 根据其邻域的情感分来计算最终情感 
分。 同样，为保证算法收敛，算法每迭代一次都需要 
将除种子以外的文本的情感分归一化（公式（1))，使 
得正的情感分之和为1，负的情感分之和为一1。迭 
代计算情感分 S 并归一化，直到算法收敛为止。 

第四步，判断文本倾向性。如果文本的情感分 
在一1到0之间，表示它持反对 态度； 如果一个文本 
的情感分在0到1之间，表示它持支持态度。 
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5 实验与分析 
5.1 实验数据 

目前尚未有倾向性分析的中文文本语料，我们 
从互联网上的评论中整理出三个领域的中文数据 
集，分别是：电子评论（来源于： http :// detail . zol . 
com . cn /) ，财经评论（来 源于： http ：// blog . sohu . 
com / stock /) 以及酒店评论（来 源于： http ：// www . 
ctrip . com /)。 然后由专家将这些数据集标注为“支 
持”或“反对”。数据集的具体组成如表1所示（其中 
“词典长度”表示数据集中不同词的数 量）： 


表 1 数据集构成 


数据集 

反对评论数 

支持评论数 

评论平均长度 

词典长度 

电子 

554 

1 054 

121 

6 200 

财经 

683 

364 

460 

13 012 

酒店 

2 000 

2 000 

181 

11 336 


5.2 实验设置 

我们对上述数据集进行以下预 处理： 首先，我 
们使用中文分词工具 ICTCLAS ( http ：// ictclas . 
org /) 来对这些中文评论进行分词，然后，用向量空 
间模型来表示文本。在该模型中，每个文本转化为 
词空间中的词袋表示，词的权重用该词在文本中出 
现的频率来计算。 

在倾向性分析中，特征选择方法则需要选出具 
有语义倾向的词语作为特征词。我们通过词性来判 
断词的语义倾向性。在汉语中，具有语义倾向的词 
语的词性有12种 [24] ，其中一些叹词等虽然也具有 
倾向性，但在评论中出现的次数非常少，因此本文没 
有将它们作为特征提取出来，而是选择经常出现的 
具有以下4种词性的词作为特征，如表2 所示： 


表 2 具有倾向性的词语的词性构成 


序号 

词性 

实例 

1 

名词 

暴君； 才华 

2 

动词 

嘲笑； 称赞 

3 

形容词 

潦倒；良好 

4 

副词 

恼怒;奇妙 


5.3 实验评价 

本文用 LibSVM [7] 作为 Baseline 算法，使用其 


线性核，并将所有参数设为缺省值。另外，将本文 
算法与结构对应学习算法（记作 SCL ) [12] 8 行比较 
分析。 SCL 算法是一种新的跨领域倾向性分析算 
法。该算法思 想为： 找出在不同领域中频繁出现 
的情感特征作为枢纽特征，然后通过建模来获得 
非枢纽特征与枢纽特征之间的关联。文献 [12] 中 
的最优参数设置，本实验中，我们使用100个枢纽 
特征。本文使用精度 （ Accuracy ) 作为倾向性分析 
系统的评价标准。 

5.4 实验结果 

我们提出的算法中有两个 参数： K 和 a (/? 可以 
由 1 一《 计算得 出）。 将 K 设为 150, 表示为每一个 
文本求出 150 个邻居；将 a 设为 0. 7, 表示训练域对 
情感分的贡献比测试域略大。同时，我们认为对于 
d , eD u (f = l ， … 《) ，如果连续两步计算得到的情感 
分& 的变化量低于一个给定的阀值则该算法收敛， 
本文设定此阀值为 0. 000 01。另外，在实验结果中， 
我们将基于图排序模型的跨领域倾向性分析算法记 
作 GraphOA ， 将基于 EM 思想的跨领域倾向性分析 
方法记作 EMOA 。 

表3显示了将 LibSVM 用于倾向性分析时，在 
特征选择前、后的 精度： 


表 3 特征选择前后的倾向性分析精度 


LibSVM 

特征选择前 

特征选择后 

电子—财经 

0. 647 8 

0. 665 2 

电子—酒店 

0. 752 2 

0. 750 4 

财经—酒店 

0. 695 7 

0. 694 8 

财经—电子 

0. 669 6 

0. 704 3 

酒店—财经 

0. 597 8 

0.619 6 

酒店—电子 

0. 6413 

0. 667 4 

平均 

0. 667 4 

0. 683 6 


表4显示了当进行跨领域倾向性分析时， 
Li b S V M 、 SC L 以及基于图排序的跨领域倾向性分 
析算法 （ GraphOA ) 的精度，其中我们的算法用 
LibSVM 分类器进行初始化。 

在 GraphOA 的基础上，我们又进行了基于 EM 
思想的跨领域倾向性分析方法 （EMO A )，其中根据 
待选种子占整个测试集文本数的百分比 P 分别为 
1 %、5%、10%、20%而做了四组实验，实验结果如 
表5所示。 
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表 4 跨领域倾向性分析时不同算法性能比较 



LibSVM 

SCL 

GraphOA 

电子—财经 

0. 647 8 

0. 750 7 

0. 730 4 

电子—酒店 

0. 752 2 

0. 775 0 

0. 754 3 

财经—酒店 

0. 695 7 

0.768 3 

0. 745 7 

财经—电子 

0. 669 6 

0. 834 0 

0. 843 5 

酒店—财经 

0. 597 8 

0. 657 1 

0. 784 8 

酒店—电子 

0. 641 3 

0. 727 0 

0. 860 9 

平均 

0. 667 4 

0. 752 0 

0. 786 6 


表 5 不同取值 P 时 EMOA 算法精度比较 


领域 

EMOA 

p=i% 

P=5% 

P=10°/o 

P=20°/o 

电子—财经 

0. 708 696 

0. 786 957 

0. 782 609 

0. 789 1 

电子—酒店 

0.495 652 

0. 743 478 

0. 75 

0. 778 3 

财经—酒店 

0. 743 478 

0. 745 652 

0. 752 174 

0. 739 1 

财经—电子 

0.845 652 

0.847 826 

0.847 826 

0. 854 3 

酒店—财经 

0. 706 522 

0. 769 565 

0. 776 087 

0.8 

酒店—电子 

0.843 478 

0.845 652 

0.847 826 

0. 856 5 

平均 

0. 723 913 

0. 789 9 

0. 792 75 

0. 802 9 


由表3可以看出，本文采用的面向倾向性分析 
的特征选择方法可以提高文本倾向性分析的精度， 
特征选择后的平均精度提高了 1. 62%，说明我们的 
特征选择方法对于倾向性分析问题是适用的。 

由表4可以看出，基于图排序的跨领域倾向性 
分析算法大幅度地提高了跨领域倾向性分析的精 
度。其中第2列是 LibSVM 的精度，第4列为用 
LibSVM 初始化后本算法的精度，对比可见，我们算 
法的精度均高于 LibSVM 的精度，平均精度提高了 
11. 9%。精度上如此大幅度的提高表明我们的算法 
对于跨领域倾向性分析问题非常有效。 

表4中第3列为 SCL 算法的精度，总体上说， 
我们对于 SCL 算法的实验结果与文献 [12] 中结果 
基本一致。 SCL 算法的平均精度比 LibSVM 高，这 
证明 SC L 算法对于跨领域倾向性分析问题是有效 
的。然而从表中可以看出，我们提出的算法的精度 
优于 SCL 算法。分析其原因，是因为以下两 点：第 
一， SCL 算法本质上是基于词的共现（窗口大小为 
整篇文本），因此它很容易被低频词及数据集大小所 
影响。第二， SCL 算法的枢纽特征是完全由领域专 


家选定的，因此枢纽特征选择的质量会影响 SCL 算 
法的性能。 

表 5 显示基于 EM 思想的方法可以进一步提高 
跨领域倾向性分析的精度。当选取的种子数超过测 
试集的5%时，基于 EM 思想的跨领域倾向性分析 
方法的精度就开始比 GraphOA 高，并随着种子百 
分比的增大而进一步提高，当 P 取20%时，基于 
EM 的方法比基于图排序的跨领域倾向性分析算法 
的平均精度提高了 1. 63 %。 这说明基于 EM 思想 
的算法对于跨领域倾向性分析问题是十分有效的。 

6结论 

本文提出一种跨领域倾向性分析算法，它将文 
本的情感倾向性与图排序方法结合起来进行跨领域 
的倾向性分析。在得到迭代最终结果后，利用其中 
倾向性判断较为准确的测试文本来提高整个测试集 
倾向性分析的精度，我们将这些较准确的测试文本 
作为“种子”，进一步通过 EM 算法迭代进行跨领域 
倾向性分析。我们针对三个领域相关的情感数据集 
检验本文提出的算法。实验结果表明，我们的算法 
可以大幅度地提高跨领域倾向性分析的精度。 
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摘 要： BF 算法是串匹配算法绞典算法之一，但并不适合 GRJ 这种并行体系结构提出了基于统一计算设备架 
构 （ CUDA ) 架构的解决方案，通过对需要处理的数据增加一定比例的冗余信息，设卄了适合 CUDA 计算数据的独立性 
特点的并行 BF 算法。实验结果表明，基于_八架构的并行串匹配算法比同等 CRJ 算法获得约10倍的加 達比此 
外还对该算法性能的影响因子做了 分析。 
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o 引言 

目前对串行的串匹&算法的研究已炫相对成轨，但该类 
算法在现行各类应用中面临着新的挑战，即需要处理的数据 
规模越来越庞大，同时匹&效率要求更高，因此基于硬件的串 
匹&算法和并行串匹 K 算法研究正热 111 .. 现有的基于硬件 
的方案，如基于 TCA . FPGA 的匹&算法，其价格昂贵且钛定 
性不够好，基于 GRJ 的方案，通过把 NDS 的串匹&计算任务 
移植到 GRI 由其负责处理，如 PixelSoort 算法⑴取得了一定 
«度的加達比 • 

随着图形 GFU 的高过发屣，特别在近年 NVDR ■公司推 
出了基于 G 8 卩以上系列的 GRJ 的统一卄算设备架构 w 
(Compute Unified D evice A rchitecture , CUDA ) ，其并行 线枉执 
行幞型和线租冏步技术为解决问題提供了一神崭新的研究视 
角与实現解决方案. 

BF 算法是串匹配算法中最简单易用的单模式®配算法 • 
与 KMP 算法相比 ， BF 算法不需要任何預处理过裎，并且不需 
要额外的数据结构 .. 本文的方法就是基于 CUDA 架构将串行 
的 BF 算法改边为适合 GRJ 特点的并行串匹& 算法. 

1 相关工作 

L 1基于图形管道的串匹配算法 

PixelSoort 方案利用 GR ； 的多个着色处理器并行匹 fc 多 
个规則，从而实现性能加璉，实验结果表明当移植的计算部分 


增加时 . PixelSnort 的性能就更铉定且能超出现有 Snort 性能 
的40%,文献 [ 4 }} 是出了一种在网络入侵检測系统 （htmsnn 
Detectun Systans , DS ) 中基于 GRJ 的多模式 ffi 配算法，该方 
法在送行 GR ； 计算前使用哈希的方法对规則做预处理，这样 
減少了不必要的匹配，其实验结果表明该方法的性能是 Sno rt 
中 改送的 WuManber 算法性能的两倍.. 

这些方案的硬件基础是 ffl 形硬件管道流水线 .. 编程模型 
与流核 （ strean - kernel ) 编租模型非常相似 • 基于图形管道流 
水线的方案的不足之处是处理的数据大小受屏幕最大纹理大 
小限制，而且需要绘®命令来激犮着色处理器执行内核. 

L 2 Qnatch 算法 

串匹配长久以来就应用在1’十算生 物学. 文献 [5] 出了基 
于 GRJ 实现的后级树捎索算法即 Ctaatch 算法，该算法通过 
将 后坺树 按照宽度优先 (Breadto First ) 存储为二維纹理，这种 
方式帝来的数据的局部性质使得纹理 cache 的命中车大有提 
高，当多个线程并行执行时減少了对显存帝宽的需求从而提 
高了匹配过度，实验结果表明璉度比同等 CRJ 边界版 本裎序 
提高了约35倍. 

2 CUDA 介绍 

CUDA 是用于 GRJ 卄算的升发环境，它是一个全新的软 
硬件架构，可以将 GR ； 视为一个并行数据计算的设备，对所 
进行的 计算进行分配和管理.其巧妙的线程体系设计4储体 
系和线 裎同步 技术是 CUDA 成功的重要因素. 
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作者 简介： 唐定车 （19S0-), 男，湖南邵阳人，碩士研宄生，主要研宄方向柯络 安全； 到任任 （1956 -), 男，湖南醴陵人，教授，博士生导 
师，主要研宄 方向： 多值逻辑理论、计算机算法设计与分析，谭建龙 （1974-), 男，湖南宁乡人，副 研宄贲 ，博士，主要研宄方向数据流处理、网 
络安全。 



400 


计算机应用 


第29卷 


CUDA 的执行模型是 SMT , 也就是说在一个多处理器上 
的每个线裎在任何时间执行的指令都是相同的 171 ..在 CUDA 
中由多个线程组成线程块，多个线 裎块迸 一步组成线《格 • 
线程块内的线裎通过共享内存组成协作线程阵列 
(Cooperative Threads A nay , CTA ) .. CIA 中的线租通过调用 _ 
syncthreads () 来设罝冏步点即壁垒来阻断 CTA 中所有线程直 
到所有线裎都完成该同步点前的任务. 

CUDA 的内存空间分为全局空间-局部空间-共車内存、 
常量空间和纹理空间 .. 根椐不同空间它的位置-访问方式-生 
存期等也不同，具体见表1» 

表1设备内存 


类型 

位置 

高速緩存 

存取方式 

范 ffl 

速度 

全局 

片下 

No 

RAV 

应用程序 

馒 

局部 

片上 

Yes 

RAV 

CTA 

馒 

共享 

片上 

H/A 

RAV 

CTA 

最快 

常量 

片下 

Yes 

R 

应用程序 

快 

纹理 

片下 

Yes 

R 

应用程序 

快 


CUDA 与传统的 GPGR ； 方法有昱著的不同之处•传统 
的 GPGPU 迸行通用计算是通过把这些问题转换成为图形卄 
算送到 GRJ 中完成的，而现在基于 CUDA 则可以直接调用 
GR ； 的计 算资源 .. 此外， CUDA 不仅支持多核技术同样也支 
持超級并行线租的升发 平台. 

3基于 CUDA 的并行串匹配算法 

基于 CUDA 的并行算法设什需要 考虑： 1) 如何安排数据 
存储方式，也就是为每个线程确定它要处理的数据片段，不同 
伐程需要处理的数据片段庳則上都不一样 . 2 ) 如何減少线锃 
直接访问显存.因为直接访问这些存储体需要几百个存储用 
期，而访问片上的共享存储体只需要几个存储用期 .. 

本文中并行串匹配算法首先将需要匹 fc 的字符串《处理 
为适合 GRJ 处理的字符矩阵，通过每个 战裎的 D 与字符在 
矩阵中位罝的关系来确定 该线裎 要处理的数据 片段.在线裎 
执行时，为了減少直接纣显存的访问，内核中先将该线 裎块要 
处理的数据块传送到片上的共享存储体中，如此一来，伐程在 
执行串匹紀时不需要直接访问显存了，从而提高了匹配達度。 
基于 CUDA 的串匹&算法详细过 租介绍如下. 

1 1数据预处理 

通过上面的介紹可以看出， CUDA 的并行执行模4!即 
SMT 执行方式适合处理数组、向量施陣等数据类型，而另一 
方面宇符串匹&算法有很强的顺序性 要求。 为了兼賴两方面 
的特点，本文采用了冗余数据的方法设什了字符串矩阵满足 
串匹&算法的顺序性要求，又能发挥 CUDA 并行线程模型的 
并行计算性能..在冗余方法中假设矩阵的列大小为 
BlockSb 为1 不渴检和不重复检測匹配信息，将文本串以行 
为主序存储到矩阵，在下一行的开始位置存储上一行末尾的 
长度为模式串长度減1的字符串 .. 此外，冗余后的数据总大 
小不一定是 B locks ce 的整軚倍 ，所以在最后的一行可能需要 
填充数个（小于 5/ ocWce ) 无意义符号。到此构造了二維字 
符矩阵•例如矩陣列大小为10,模式为 ATGC , 文本为 
AGATGCACGAGATACAATGCATGCATATC . 炫过預处理输出 
字符矩 阵如困 1所示. 

准确的匹配位罝通过后处理来计算 ：假设 在冗余后的文 
本串的匹配位置为 Pos , 通过容易计算出该位置在矩阵中的 


位置假如是 （ Rwvld , Cohmnid ) ,那么对于 Rowld 不为0的位 
罝 Pos 比起在实际文本串的中的位置多出 RowD 乘以（模式 
串长度- 1) 距离，也就是说文本串的实际位罝等与 Pos 滅去 
这个距离加1 •如上例， ATGC 匹配位罝为2, 23..由于3的 
RcwD 为0,故实陆匹配位罝也是2, 23的 RowD 为2,由此得 
实际匹配位置23 - 2 X 3 + 1 =18. 



0 

1 

2 

3 


□□□□□□□□□□ 

BQDQDDDBDD 

□□□□□□□□□□ 


图1数椐預处理 


通过冗余数据方法势必会付出空间代价，本文中假设文 
本串长度为 2^,, 矩阵列大小为 Blocks re , 那么可以通过式 
(1) 计算冗余度 

1 . 1 

R= L 糾 xiOD% (1) 

+ Blocks te 

由此可见当 ip , « BlodcSce 时 ，冗余度很小. 

3 2匹配算法 

串行的 BF 算法通过一个二重循环来求解宰匹&问題， 
内层循环检验当前与模式串长度相同的窗 o 内的文本串与模 
式串是否相等，外层 M 环用来移动窗口，每次向右移动一个位 
置直至遍历所有文本串.而在基于 GRJ 这神并行体系结构 
的并行算法设计中往往利用多个处理器或多个并行执行的战 
裎来代替和減少站环在本文算法中并没有看到 BF 算法的 
外层循环，这是因为多伐《并行执行隐藏了外层循环. 

内核算法的并行性表现在两个层次上 ：一是线裎块 的并行 
执行，二 是线裎 块中伐程的并行执行 • 这两神并行性是相互制约 
的，也就是说战程块并行度与线程并行度存在反比性項. 

在基于 CUDA 的并行串匹&算法中 ，一 个线 裎块负 贵处 
理与线裎坱 D 相应的数据块，该线桎块中每一个线裎⑦责处 
理该数据块中与该线桎 D 对应的数据片段， 

每个线租将与线程 D 相对应的设备内存上的数据读取 
到共车 内存中，然后调用同步函数 syncttireadsO 确保本 CTA 
要处理的数据全部该取到共车内存中，接着每个线程并行执 
行匹配操作 stnn^vlatdimgO ,若 ffi 配成功，改写 fcund 值为 
true , 再次调用同步函数确保所有线裎 fcund 值得到更新，最 
后将匹配结果保存到结果数组 .. 内核算法伪代码描述 如下： 
Piocedure Stxm^lacfii 
faput SliaieA.iT[], TlieadD, pattern 
k^TheadD, 

0， 

While(j < pattenLengtti && ShareA.rr[k] - = pattem[j]) 

{ + + j ，++ k ，} 

EndVhile 

if (j = = pattenL ength) 

Return TRUE, 

Else Return FALSE, 

Endlf 

Piocedure StMatchGPU _kemel 
Input textSti, pattern 

/ 服据伐程 mdex 与伐程坱 index 计算伐程在践程网格中的 D 
ThieadD —CanputeTlueadId(p lock Index, Tlireadlndex), 

// 计算伐程块在伐程网格中的 D 
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王机 

到设备 

0 276 30 

0. 

460 7 

0. 467 37 

0 7347 

设备 

到主机 

7. 88368 

5. 

7245 

16 43560 

33 6010 

设备 

到片上 

98 08450 

98 

61450 

297 261 00 

614. 5500 

写结果 

时间 

33 41710 

34 

00400 

101 13600 

209 5500 

串匹& 
时间 

2. 241 91 

2. 

25755 

6 76092 

14 2845 


B lockD 一 Canput 由 bckId(GndIadex, B lock Index) , 

Foundh-O, 

/ 雌决 中的每个残程负責将分配给它的数据写到共享内存上 
ShaieAn^Threadlndex] 4 —tex6ti[ThieadD ], 

/Ail 同步防止由 WAW,WAR,RAW 操作损坏数据 
_ s^ucfiireadsO t 

7^ 每个残程比较以残程 D 升始的、长与馍式串相等的子串与 
//«! 式串是否匹配，若匹 & 成功，則改写 found 
If (Stnn^l atchmg (SliaieA.ir [ ThieadD: Tlireadld + PatteirL en ], 
pattem[l PattenLen])) 

Found*—tme, 

Eiidif 

_^ncttueadsO, 

/服存结果到显存上数组 
WnteResult(Foiind, Re sultan); 

4 实验结果与分析 

实验平台：主 CFU 是 AMD Dual Core Processor 4800 + 
2 51 GHz_i 内存为 1 GB ■ GRJ 是 NV D A GeForce 8400 GS , 
工作頻車为 459 MHz , 显存頻车为 ‘OOMHi 显存位宽为 64 
bit , 並存大小为 256 MB , 着色器时钟頻丰是卯 0 MHz > 使用的 
驻动器版本是177 84,总线接口为 PCPEX 16, 拥有16个统 
一着色单元分别在两个多处理 器上。 

操作系统是 WmdowsXP 2, 软件平台为 CUDA , 实验集成 
环境 Visual Studio 2005 • 

本文的实验第一组实聆测试 CFU 与 GFU 在不同情況下 
的串匹配时间，第二组实验測试 CRJ 方案的时间分布情况 
实验结果如表；2-3所示（其中 "4/4 MB ”表示模式长度/数据 
大小，以此类 推）。 

表 2 CPU 与 GFU 串匹配时间比较 ms 


实验乎台 

4/4 MB 

7 /4 MB 

7/14 MB 

27/28 MB 

CPU 

15. 080 960 

17. 275 93 

50 L 925460 

87 46781 

GPU 

2. 241 905 

2 25755 

6l 760915 

14 28449 


表 

3 GPU 时间分布 

ms 

指标 

阶段 4/4 MB 7/4 MB 

7 /14 MB 

27/28 MB 


(上接苐3951 ) 

[7] 刘瑜，王立福，张世诏•.软件枢架升发过程研究计其机工 a 
与应用 ,2004,40(2): 26 - 28 

[ S ] 胡文蕙，赵文，张世琨，等.基于构件技术的应用框架元糢型的研 
ft 卩].软件学袓, 2004, 15(1) 1 - 8 
[9 ] JOHN 3 DN R E , FOOTE B Deagungreusable classes [ J ] Journal 
ofObjectOnented Piojamming 1988,1 (2) : 22 - 35. 

[10] 徐小良.自动測试系统的面向对象枢架升发方法研宄 [ D 1 柷 
州 :浙 江大学 ，2003. 

[11] 陈新•应用框架的设计与实现—— iNET 乎台 [ M ] 北京电子 


由表2可以看出 ， GRJ 买际的匹配时间要优于 CRJ 匹配 
时间约10倍，这是因为 GRJ 是 SMT 方式并行计算片上内存 
提供了高達访问能力（一次访存只需4个 GPU 时钟用期） • 
可以看出 GRJ 上串匹配时间受模式长度变化小，这也是因为 
共享内存为并行的读写避免了频繁访问昱存 .. 从表3可以看 
出，实陆用来匹配什算时间只占内核运行时间的很小一部分 • 
从所有的 GRI 算法匹配时间来看，本文的 GRJ 算法的时间 
主要受 CTA 中残程在同步的关键区域执行路徨发生分岔 
( Diverged ) 到所有线枉拟■合 （ Conveiged ) 到 相定的 同步 点所炫 
历的时间的影响 .. 

本文实验也统计了在 CRJ 与 GPU 数据上传与下载所耗 
的时间（表 3), 可以看出上传通遒与下找通道的帝 t 不对称， 
也就是说从 CRJ 下我数据到 GR ； 上的遠度比 GRJ 上传到 
CRJ 的璉度要快 

5结语 

本文通过对需要处理的数据增加一定比例的冗余信息的方 
法，设计了适合 CUDA 什算数据的独立性特点的并行字符串匹 
配算法。实验结果表明基于 CUDA 架构的并行串匹配算法获得 
约10倍的加速比 .. 但是对设备内存的该写成为本文算法在应用 
系统中的瓶颈..后续的工作可以利用 CUDA 提供的兼容图形图 
像编程的纹理内存作为内核的数椐存储器，0为纹理内存在 G 80 
以上设备有专用的纹理 cache 用来提高访存过度. 
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LIU Xia, LIU Ping, LIU Yanbing, et al.URL-flltering method for mobile terminals.Computer Engineering and Applica¬ 
tions,2011,47(18) :68-72. 

Abstract : In the mobile terminals’ content security monitoring,blacklist is a common way,but the limited memory restrains 
its application.Based on the characteristics of blacklist filtering, this paper comes up with an improvement for multiple pat¬ 
tern string matching algorithms.This paper uses Aho-Corasick(AC) as an example.Two heuristic strategies are applied to ex¬ 
tract representative pattern strings of the same length from URL strings which have different lengths.Then this structure is 
further compressed using double-array.The experiments in Nakia 5230 show that the algorithm only consumes 0.7% of the 
memory compared to traditional AC, while maintaining 95% of the speed of latter. 

Key words : mobile terminal ； Aho-Corasick(AC); memory compress; heuristic strategy; URL filtering 

摘 要:在 移动终端内容安全检测中，“黑名单”过滤是一种常用的手段，但有限的存储空间制约了它的应用。根据“黑名单”过滤特点 
研究了一种多串 匹配 算法的改进， 以 Aho-Corasick 算法为例，采用两种启发式策略 从不 等长的 URL 串中提取具有代表性的、等长的模式 
子串，并使用双数组进一步压缩。在 Nokia 5230 上的测试表明,该算法的存储空间是经典 AC 算法的 0.7%, 而速度可达到 95% 以上。 
关键词 :移动 终端; Aho-Corasick 算法；空间压缩；启发式策略; URL 过滤 
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1引言 

雛手机已獅夂笔 i 抹幢，麟除台规以外的第二灶 
网方式，见图 l w 。 根据中国互连网络中心的统计 : 截至 2009 年 12 
月，中国网民中使用手机上网的人数已经达到 2.33 亿。如此庞大的 
手机上网人群，其上网带来的安全问题不容忽视，如图 2 所示< 21 。 
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图1手机与其他 h 网方式对比 



图2网民遇到的手机安全问题 


为了应对手机上网的安全问题，各种有关手机安全的软 
件渐渐兴起，使用的技术手段也不尽相同，而通过 URL 检测来 
过滤对恶意网站的访问是最常使用的方法之一。 URL 检测通 
常使用 “ 黑名单 ” ，即事先设定一个禁止访问的 URL 列表，在随 
后的网络浏览中，一旦用户点击了 “ 黑名单 ” 中的 URL 链接，过 
滤系统会自动禁止此次连接，从而达到无法访问此 URL 的目 



基金项目：国家重点基础研究发展规划 (973)(the National Grand Fundamental Research 973 Program of China under Grant No.2007CB311100); 
国家高技术研究发展计划 (863) (No.2009AA01Z436) 。 

作者简 介:刘 夏(1986—)，硕士，研究领域为信息安全，多媒体信息 检索; 刘萍 (1972— )，助理研 究员; 刘燕兵 ( 1981—)，博士研究生，助理研 究员; 

谭建龙 ( 1974— ) ，博士，副研究员。 E-mail : liuxia@software.ict.ac.cn 
收稿日期:2010-11-10;修回日期:2011-01-18 
































刘夏，刘萍，刘燕兵，等:面向移动终端的 URL 过滤方法 


2011,47(18) 


69 


的。其中，快速地对 URL 进行检测的核心技术就是精确多模 
式串匹配技术，后面简称为串匹配技术或者串匹配算法。 

串匹配算法根据其使用的核心数据结构可以分为 两类: 
基于自动机的串匹配算法(例如 Aho - Corasick [3] 算法)和基于查 
表的串匹配算法(例如 WuManber 算法)。在网络信息安全领 
域，基于自动机的算法因为具有良好的抗攻击性而得到普遍 
应用。但是，此类算法的一个缺点就是存储空间占用大， 例如： 
1万条平均长度为20字节 URL 的字符串，其建立的 Aho-Corasick 
自动机占用空间为200 MB ， 这对于通常只有几十或上百 MB 
可用空间的移动终端来说是一个巨大的挑战！ 

本文在经典的 Aho - Corasick 算法基础上，结合“黑名单”的 
应用特点,使用两种启发式策略压缩其自动机的存储空间，使 
得改进后算法可以应用在移动终端上。为了描述方便，约定 
如下的 符号: URL 字符串的个数为 r ， 各串长度不等，最短长度 
为 m ， 选取的子串长度为最后，以一个例子说明本 
文的主要思想，预处理阶段使用字符串集合 { annual ， announce , 
annually , ban , banana , barely }, 匹配阶段使用字符串 banana 来 
进行搜索匹配。 

2相关工作 

本文研究的是面向移动终端的串匹配算法，核心内容是 
大幅度压缩 Aho - Corasick 算法的空间，以适用于存储空间有限 
的移动终端设备，当前国内对此 N 题已经有相关研究。 

文献 [4] 针对移动终端自身存储空间有限等特点，设计了 
移动终端本地资源搜索引擎 MDSE 系统,根据用户的数据获取 
需求,快速检索到存储在移动终端上的用户所需的用户数据。 

文献 [5-8] 都是从串匹配算法空间压缩的角度进行改进。 
文献 [5] 从改善 cache 的角度，用后缀树和双数组作为识别关键 
词子串的数据 结构; 文献 [6] 主要是总结常用的自动机的实现 
紧缩存储方法来节省串匹配算法的空间，分析各压缩算法的 
原理、时间效率、空间效率和优缺点,并给出各种方法与数据 
稀疏性之间的关系，用紧缩存储方法实现基本 Aho - Corasick 算 
法; 文献 [7] 提出了紧缩存储型 Aho - Corasick 算法变体，以异构 
按需隐式存储取代同构的例行显示存储，从横向扇出压缩与 
纵向路径压缩二个方向入手，围绕压缩稀疏事件表 展开; 文献 
[8] 针对自动机类多模匹配算法内存占用过多的缺点，分析了 
DFA 存储的列特征，并结合模式串所属字符集的编码范围，提出 
了按字符频率特征压缩自动机状态空间的多模匹配增效算法。 

文献 [9] 也是从 URL 过滤的应用目的出发，将 URL 压缩算 


法,一种 URL 的哈希算法与多模式串匹配算法如 wu-member 
相结合，以达到较高的查找速度和有效的内存利用率。文献 
[10] 通过双数组的方法来压缩完全 Aho - Corasick 算法，以使 
Aho - Corasick 算法所需的空间大幅减少，并且搜索时间仍为线 
性。文献 [9] 的算法也是本文改进算法的一个对照算法，本文 
实验中对此算法有相应的对照实验。 

本文从空间压缩的角度改进串匹配算法，以 Aho-Corasick 
算法为例，采用启发式策略和贪荽减少内存的方法，从 URL 
blacklist 各长度不等的模式串中找到长度固定等长的子字符 
串，建立 Aho - Corasick 自动机。对此 Aho - Corasick 自动机进一 
步以双数组进行压缩。 

实验表明,本文的改进算法相比 Aho - Corasick 算法，在空 
间上有大幅度减少，可达上百倍,而速度与 Aho - Corasick 算法 
相当。 

3算法描述 
3.1 算法主要描述 

本文算法描述如图3所示。 

本文算法主要分为两个步 骤:预 处理和匹配。预处理阶 
段主要工作是提取 URL blacklist 中具有代表性的各模式串的 
子串，这通过两种启发式策略完成。首先对各模式串的子串 
出现的频数进行统计并按降序排序,得到频数前 A 的子串，对 
这些子串建立 trie 树，再将剩余模式串的子串依次加入 trie 树， 
计算 trie 树增加的结点数，选取使得增加结点数最少的子串。 
由此两种策略得到的子串合成一个完整的子串集合，对其建 
立 Aho - Corasick 自动机，进一步利用双数组压缩该自动机。匹 
配阶段则对待匹配的 URL 首先以双数组压缩的 Aho-Corasick 
自动机进行匹配，若匹配失败则退出，否则根据匹配返回结果 
获取该 URL 剩余的字符串，再与预处理阶段存储的剩余字符 
串进行精确匹配，得到最终的匹配结果。 

由于手机存储空间有限.而 Aho - Corasick 自动机随模 
式串规模增大性能大幅下降，再结合 URL 过滤在实际检测 
中 Aho - Corasick 自动机的命中率在1%以内这一应用特征， 
本文算法在预处理阶段通过两种启发式策略提取出具有代 
表性的子串。在匹配过程中，首先与这些子串构建的由双数 
组压缩 Aho - Corasick 自动机相匹配，匹配失败便直接退出。 
因此与直接将模式串构建 Aho - Corasick 自动机相比，可以大 
幅节省空间和时间。 



预处理阶段 


/选取频率最大的 
前 A ： 个 《- gram 建 | | 
立 tri ; 树 'J 


将每个模式串的 
子串依次加入 
trie 树，选敢使得 
trie 树结点增加 
最少的子串 



匹配阶段 


URL 集合 


匹配 


V 


■_ 将 step 1和2中选/ 
出的子串作并集，丨 
建立 AC 自动机， I , 

. 并用双数组压缩、 


图3算法描述图 
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3.2 代码描述 

算法 1 Preprocess { P ={ p \ p 2 , p r }， k ， n ) 

1. for i<—\ to r do 

2. if 5 g p l && do 

3. Add(^, SubStrs.string) // 函数 Add 将 s 加入集合 SubStrs 

4. end if 

5. end for 

6. for i<—\ to \SubStr\ do 

7. for j<—\ to m do 

8. if SubStr 1 e pi 

9. SubSt^ .count++ 

10. end if 

11. end for 

12. end for 

13. // 函数 Sort 对 SubStrs 按照 count 值降序排序 

14. Remove K(SubStrs) // 函数 Remove AT 对 * 的进行处理， 
除去第欠个和之后的 SubStrs 

15. for i<—\ to r do 

16. for j<—l to \SubStr\ do 

17. if subSti^ g p do 

18. Break 

19. end if 

20. end for 

21. if j=\SubStr\ do 

22. Add(p’ ， Others) 

23. end if 

24. end for 

25. trie—BuildTrieiOthers) // 函数 BuildTrie 将 Others 构建成 
Trie 树 

26. for /—I to \Others\ do 

27. if 5 e Others 1 && | 1 y|=« do 

28. 

29. end if 

30. for i<—\ to do 

31. result—AddToTriei trie, Sub 1 ) // 函数 AddToTrie 计算将 
Subi 加入到 trie 上增加的结点数 

32. results.add {results) //results 是一个矢量，将结点数都 
存储在 results 中 

33. end for 

34. Min=mm ite(Results) // 函数 minite 取 results 中最小白勺矢量 

34. Add (Mm, Subs) 

36. end for 

37. acTrie—BuildAC(Subs 、 // 函数 BuildAC 对字符串集合 Subs 
建立 Aho-Corasick 自动机 

38. acDoubleTrie<—DoubleAC(acTrie ) // 函数 DoubleAC 将 acTrie 
压缩成双数组 

示例说明： 

输入子符串集合 { a 肋 wa /， a ⑽ ， annually ， ban , banana ， 
barely } 

预处理阶段 :设定 h 2，《=3。 

步骤 1 选取频率最高的前 A : 个 n-gram 串，这里是 ann (频 
数为 3) 和 &«( 频数为2)。 

步骤2对 awz 和建立 trie 树，见图4。 

步骤3将包含 ami 和的模式串去掉， barely 的所有子 
串 ( ， are ， re / ，吻)逐个加到 trie 树上，阴影结点为增加的结 


• — p 

图 4 和建立的 trie 树图 


点，见图5〜8。由各图可知， kr 使得 trie 树增加的结点数最少， 
故为选中的子串。 



步骤4将 cmn 、和建立 Aho - Corasick 自动机，如图 
9所示。将此并用双数组进行压缩，将 wa / ， ounce , ually , eud ’ ana ， 
存储 起来。 通过这四个步骤即得到本文算法的基本 结构。 



图 9 {ann , ban , 构逮的 Aho-Corasick 自动机图 

算法2 Search ( x ) 

1. midResults<—SearchAC (x, acDoubleTrie) // 函数 SearchAC 在 
acDoubleTrie 中搜索 x ，将结果矢量存入 midResults 

2. if \midResults\=0 do 

3. report (“have not searched ;c ”） 

4. return 

5. end if 

6. for /<—1 to \midResults\ do 

7. result*—Match (midResults 1 ,x) // 函数 Match 将根据 midRe- 
sultsi 中的各值对 x 进行匹配 

8. if result>0 do 

9. report (“have searched jc ”） 

10. end if 

11. end for 

12. report( 4< have not searched x ”） 

用 banana 进行搜索匹配:将用以上预处理阶段构 
建的基本结构进行匹配。 

步骤1用双数组的基本结构匹配，匹配成功，匹配的字符 
串为。 

步骤2 对应的字符串是和,预处理阶段对 
这两个字符串保存了其除子串之外的字符串“”和 a „ a 。 

步骤3待匹配的字符串 banana 除去 few 之外的剩余字符 
串是,与“”和匹配。 与 ana 成功匹配，故报告搜 
索成功。 
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-url blacklist 规模3 000 
- a — url blacklist 规會2 000 
♦ url blacklist 叙 模 1 500 
r url blacklist 模 1 200 
• url blacklist 故 模 1 000 



6 8 10 12 14 16 18 20 

«值 

图 11 « 值 1 空间大小关系图 

< 10 5 



0 500 1 000 1 500 2 000 2 500 3 000 

URL blacklist 规模/条 

图 13 两种算法所需空间对照图 

匹配的速度进行对比。由参数实验结果，以下实验均取参数灸 
为 URL blacklist 规模的50%,，!为 12。 

图12显示出随 URL blacklist 规模的增加，三种算法所需空 
间的对比关系图。从图12可以看出， A 算法所需的空间巨大，在 
URL blacklist 规模为100时， A 算法大概是 B 算法的30倍，是 C 
算法的40倍。随着 URL blacklist 规模的增大， A 算法消耗的空 
间增长远大于其他两种算法的空间增长，当 URL blacklist 规模 
达到500时， B 算法相比 A 算法，空间大约压缩到后者的2.5%, 
而双数组压缩子串 C . 算法相比 A 算法，其空间大约压缩到后者 
的0.7%。由实验结果可知， Aho - Corasick 算法随模式串规模的 
增长，空间迅速增长，故对其进行空间压缩是非常有必要的。 

图13主要显示 B 和 C . 二种算法随着 URL blacklist 增长所 
需空间的对比关系图。由图13可知，在 URL 规模较小时, C 算 
法和 B 算法空间使用相当。但随着 URL blacklist 的增长, C . 
算法所需空间与 B 算法所需空间相比，增长缓慢。当规模达 
到3 000时，由图中可以看出， C 算法相比 B 算法,空间可压缩 
到后者是10%左右。 

图14显示出三种算法的匹配速度与命中率之间的关系。 
随着命中率的增长， A 和 B 算法速度稳定，大致呈一条水平线， 
而 C 算法小有波动，但总体尚稳定。就匹配速度而言，以 A 算 
法的速度最快, C . 算法的速度最慢,但其速度相差甚小，基本控 
制在5%以内。 

由以上实验可知，提出的改进算法不仅能够大幅压缩 
Aho - Corasick 算法所需空间，大约可压缩到经典 AC 算法的 
0.7%,而速度可达到95%以上。 

5结束语 

手机等移动终端的上网安全引起人们的广泛关注，将串匹 
配算法用于这些移动终端上，需要解决的最大问题就是串匹配 


3 


4实验结果和分析 

为了说明本文改进算法在空间和时间上的效果，实验对 
三个算法进行了对比。算法 A 为经典 Aho - Corasick 算法，即采 
用 URL blacklist 中全部模式串建立 Aho - Corasick 自动机;算法 
B 为采用双数组进行压缩的 Aho - Corasick 算法 [1 ° ] ，即对 A 算法 
中的 Aho - Corasick 自动机进行双数组 压缩; 算法 C 为本文改进 
的算法，即通过两种启发式策略从 URL blacklist 中选取出等 
长的子串，建立 Aho - Corasick 自动机，再对其进行双数组压缩。 

实验均在 Nokia 5230机器上完成: 434 MHz 的 ARM 11架 
构处理器，256 MB ROM +128 MB RAM,Symbian S 60 第 5 版 
操作系统，所有 URL blacklist 集合均来自于 Blacklist . com 1 " 1 0 

在进行三种算法空间和速度对比的实验之前，需明确本 
实验中各参数对这两个因素的影响。文中主要参数为 A : 和 
决定第一种启发策略中选择子串的最高频数个数，而《决定子 
串的长度。 A 对算法空间大小的影响如图10,由图中结果可看 
到，对不同的 URL blacklist 规模，随着 M 直增长.曲线近乎水平 
直线，波动很小，故 H 直的选取对空间大小影响甚小。由此可 
知两种启发式策略，互相促进，互相补充，节省空间程度相当。 

图11是在不同规模实验数据集下，测试《值变化与占用 
空间大小的关系图。图中显示》值小于12时,所需空间稳定 
在较低范围，且当《取12时，空间最小，而《大于12时,则空间 
大幅上升，在》为13时便突增至之前空间的二倍大于13后 
空间涨幅基本稳定。因为 n 小于等于12时， 》- gra m 子串的频 
数更高，从而更节省空间。 

为证实本文的改进算法对时间和空间的影响，将提供三 
组实验数据来说明。第一组实验将 ABC 三种算法构建其各自 
基本结构所需的空间进行 对比; 第二组实验将 BC 算法构建其 
各自基本结构所需的空间进行 对比； 第三组实验对规模为 
15 000条 URL 的文本串进行匹配时，采用 ABC 三种算法进行 
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图 10 A 值与空间大小关系图 
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图 14 三种算法匹配速度对比图 
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算法需要的巨大存储空间。本文通过改进 Aho - Corasick 算法， 
采用两种启发式策略，统计频率最高的 《- gram 串和贪婪减少 
内存策略，选取模式串具有代表性的部分子串构建 Aho-Corasic 
自动机,并进行双数组压缩，剩余串用作精确匹配。在 Nokia 
5230上的测试表明，改进的算法能较好地解决存储空间问题, 
同时保证了匹配效率，是很实用的。 
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(2 )( 真度 HS 规则）若 — ，则 

Tp{A ― ^ C ) 2 a +P — 1 o 

证明先证 r 是有限理论的 it 形，设厂 ={4,4 ，…， J „}， 记 
®r 2 =< ® …⑧4 ，则 t M)= — A ， —b)= 

t ( T r ( B ) = T (( g ) r ； -^ B ), 因为卜(0/; 2 — 

(』— s ))4((( g ) r „ 2 444(0 r „ 2 45)), 所以 r ((0 r „ 2 ^ 
((0r„ 2 -^A)^ (0r„ 2 4 5))) = 1 ，由于 4 5) = 

T(0r„ 2 -^(A 45 ))M ， 故 r((0r„ 2 ，又由 

r r {A) = r (0 r „ 2 ~^A)>a ，所以可得 r r (B) = t (0，„ 2 -^5)>a+yS-1„ 

再证尸是无限理论的情形，由于 z r (A) = sup{r(0r„ 2 
n &N}>a,r r {A^B)= sup{r(0r n 2 ->(A ~^B))jn eNj >f ), 根据 
上确界定义 VssO.am/TV ， 使得 e ， 3m 2 eN, 
使得 — (A B)) > - e ，取 m = max{m,,m 2 }, 易证 

T&rl —5) 瞻 m 的增为 fStfc 则 ~^A)> 
as , T{®rl -^(A ^5))>T(0r^ -^(A ^B))>p-e ，又由于 
T((0r ； —5))>yS - e ，所以 
r(0r^5)>a-e+yS-e-l ，所以 T r (5) = sup{r((8)r^5)| 
m &N)^:a+p- \ 。 

(2) 因为 （■(5 — 04(04 45)404 4C )), 所以 
r r ((B -^B) -^(A^ C))) = 1 , 又因为 z r (B ~^Q>j3 , 

所以由 （ 1 ) 可得 T^ r ((^4 —> B) —> C)) = l+y9-l=y ?, 又因为 

t 厂 (A — > B) >(X , 再次利用 (1) 口 J. 得 t 厂 (A — > C) ^.( X + P — \ o 

推论 1 若尸卜 』 4 5 ，则 vM) < T r (B ) 。 

证明 若 中 —S ，得 r r (J—5) = l ， 令 &⑶ = a ， T r 04 — 


5) =/3，则由真度 MP 规则可得 t 「( B ) > a + P -\= r r ( A ) + 1-1 = 
T r (J) 。 

推论 2 设 A , B , CeF ( S ) ， 

( 1 ) 若 z r ( A ) = 1, 4 5) = 1，则 r r (5) = 1。 

(2) 若 4 5) = 1， z >(5 4 C ) = 1，则 r r (A 4 C ) = 1。 

4结束语 

在系统 r 命题逻辑系统中提出了公式的 r - 演绎真度， 
给出了 r - 演绎真度的一系列性质，并给出了真度推理规则。 
用此 r - 演绎真度引入公式间的伪距离并在公式集 f ( s ) 中展 
开近似推理是一个值得研究的问题，将另文讨论。 
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大规模语料中频繁模式增量发现算法 
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摘要： 提出一种适用于大规模语料的频繁模式增量发现算法。统计局部区域提取的字符串频度，对局部相对低频字符串进行剪枝。利用 
多模式串匹配算法，统计剪枝后局部相对髙频字符串在整个语料中的频度，得到频度大于阈值的频繁模式。实验结果表明，该算法具有较 
低的空间复杂度和时间复杂度，内存消耗为基于后缀数组的频繁模式发现算法的 20% 左右。 

关 键词： 频繁模式；增量式；多模式串匹配算法；后缀树；后缀数组 
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【 Abstract 】 This paper presents a memory-based frequent pattern incremental discovering algorithm for large-scale corpus. It extracts strings and 
counts frequencies of them from local area, prunes the local relative low frequency strings, and uses multi-mode string matching algorithm to count 
the local relative high frequency strings in the whole corpus, eventually gets the frequent patterns that the frequency is greater than the threshold. 
Experimental result shows that the algorithm has a better space complexity and the highest consumption of the memory size in the process of 
frequent-pattern discovery is about 20% to the size of the algorithm based on suffix array. 
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i 概述 

在频繁模式挖掘算法的发展过程中，有许多应用到频繁 
模式挖掘算法 [1] 的具体问题。譬如从海量互联网信息中发现 
频繁的新的词语、短语、非正式表达方式 [2] ，广泛应用于搜 
索引擎的索引词优化、中文处理的新词发现、社会计算的热 
点发 现等； 从海量基因数据中发现频繁出现的基因片段，以 
便研究生物进化、物种相关性等。所以，大规模语料的频繁 
模式发现在应用中具有重要的意义。 

为了实现对大规模语料的频繁模式的快速发现，通常需 
要直接在内存中进行处理，并减少磁盘 I / O 操作。传统的频 
繁模式发现算法需要完整的统计语料中所有字符串的频度， 
空间复杂度一般为 0(« log «), 所消耗的物理内存通常是语料 
规模的几倍或者几十倍。通过分析发现，在完整统计语料中 
所有字符串的频度后存在大量字符串，它们的频度远小于阈 
值。对于频繁模式，在局部区域中，频度相对本区域中的低 
频字符串频度仍相对较高。 

在此基础上，本文提出一种大规模语料中频繁模式的增 
量式发现算法。通过对局部区域内字符串的频度统计，对局 
部区域中低频字符串进行剪枝，保留相对高频字符串，然后 
用多模式串匹配算法直接统计出高频字符串的频度，最后输 
出大于指定阈值的频繁模式。 

2相关工作 

2.1 频繁模式发现算法 

为了提高频繁模式挖掘算法效率，针对具体问题提出合 


理的解决方案，产生多种代表性算法。已有不少频繁模式的 
挖掘算法，如基于产生式文法的 Sequitur 算法、 N 元递增分 
步算法 [3] 等。文献 [2] 介绍并分析基于后缀索引的频繁模式发 
现算法。文献 [3] 在对于网络中文新词语的研究中，提出了 
N 元递增分步频繁模式发现算法。 

基于后缀索引的方法 [2] 是频繁模式常用的解决方案之 
一。后缀索引是一种全文索引机制，后缀树和后缀数组是 
2种最常见的后缀索引结构。基于后缀树的频繁模式发现算 
法的空间复杂度为 0( ivxi 0 g |^)„ 对于长度为 iv 的文本 r , 基 
于后缀数组的频繁模式发现算法时间复杂度和空间复杂度均 
为 o(A0 [4] 。 在后缀树的基础上发现频繁模式，一般为后缀树 
的每一个节点增加一个计数器，用以统计每一个后缀出现的 
频度，如果每个节点的计数器大于设定阈值，那么从根节点 
到该节点路径上的所有字符构成的字符串是语料的频繁模 
式。在后缀数组上发现频繁模式，如果连续超过〗个后缀的 
前缀相同，则该前缀是当前语料上的频繁模式。 

当语料规模非常大时，低频模式有很多随机产生的垃圾 
串，基于后缀树或者后缀数组的频繁模式发现算法无法准确 
预测特定模式的最终频度，因此，必须对所有后缀建立完整 
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的后缀树或后缀数组。 

文献 [3] 对于网络中文新词语的研究中，提出了 N 元递增 
分步算法，以发现文本的频繁模式。 N 元分布递增算法由于 
需要从二元开始依次寻找多元频繁模式，随着候选词条集 i ? 
中的字串增多，查找字串的时间复杂度和空间复杂度较高。 
因为 N 元分步递增算法在对候选集进行计数时，都需要重新 
扫描整个数据集，所以计数是这个算法的瓶颈之一。在这个 
阶段，算法必须对候选集中每一条字符串查询其是否存在。 
以集合词字符串的数目为字符串的平均长度为每一次 
计数所需要的时间为 0(np), 与数据的容量呈正比。当采用 
哈希表存储候选词条集合，空间复杂度一般为 O(«log«x p ) 0 
2.2 多模式串匹配算法 

模式串匹配算法根据同时能匹配的模式串的数目可分为 
单模式串匹配算法和多模式串匹配算法。单模式串匹配算法 
是指能用一个模式串进行匹配的算法，主要有 KMP 算法和 
BM 算法等。多模式串匹配算法是指同时可以对2个及2个 
以上模式串匹配算法，大多是单模式串算法的推广， Aho - 
Corasick 算法 [5] 是其中的一种最常见的算法。 

3频繁模式的增量式发现算法 

基于后缀索引的频繁模式发现算法需要对语料建立完整 
的后缀索引，导致大量的低频模式垃圾串存在索引中。 N 元 
递增分步频繁模式发现算法在获取文本中一个字符串5后， 
需先查找词条集心若词条集中已存在这个字串 ■?, 则将 
的频度加1，若不存在^则将 s 加入到词条集 i ? 中，将^的 
频度置为1。当文本长度比较小时，集合还可以稳定在一个 
可控的范围，当针对大规模语料时，产生的字串急剧增加， 
需要的内存存储空间将会是语料的几倍或几十倍，通常会超 
出物理内存空间，查找字符串的时间急剧增加。不仅高频串 
存在于集合中，低频串也大量地存在于集合中，而对于频繁 
模式发现来说，这些低频串是无意义的，所以，剪枝掉这些 
低频串将提高在集合中的查找速度，同时降低空间复杂度。 

针对上述缺点，本文提出一种大规模语料下的频繁模式 
增量式发现算法。算法对语料进行频繁模式发现时，不断将 
发现的字符串加入到候选集中并更新频度，当候选集合中字 
符串条目数大于指定数目，将频度大于剪枝阈值的加入到频 
繁模式候选集合中，清空候选集合并重新加入字符串，如此 
重复直至语料处理完毕。然后，对频繁模式候选集合中字符 
串采用 Aho-Corasick 算法 W 统计集合中字符串频度，最后得 
到大于阈值的频繁模式。 

频繁模式发现流程分为2个 模块： 剪枝模块和频度统计 
模块。剪枝模块分为3个阶段，字符串提取阶段、局部串候 
选集合更新阶段、频繁模式候选集合更新阶段。 

字符串提取阶段即从视为长字符串的文本语料中提取长 
度为 2- N 的短字符串的过程。以字符串 U ACTGA $ TCGA $ 
CTGS ” 为例，其中，$为分隔符，从字符串首开始，取长度 
为2~4的字符串依次为 AC 、 ACT 、 ACTG 、 CT > CTG > CTGA 、 
TG 、 TGA 、 GA 、 TC > TCG > TCGA 、 CG 、 CGA 、 GA 、 CT 、 
CTG 、 TG , 即依次取当前位置偏移量 2~4 的字符串，然后将 
当前位置向后移动一步，依次继续。 

在每取得一条字符串后，进入下一个 阶段： 局部串候选 
集合更新阶段。首先将查找候选集合中是否存在此字符串， 
如果存在，则将字符串对应频度加1,如果不存在，则将字 
符串添加到局部串集合中，置频度为1。 

当局部串候选集合的大小大于或等于局部串集合大小阈 


值 M 时，进入频繁模式候选集合更新阶段。遍历局部串候选 
集合，将集合中各个字符串的频繁与剪枝阈值比较，将大于 
阈值的字符串添加到频繁模式候选集合。 

当文本语料中所有字符串提取完毕后，进去第2个模块 
进行 处理： 频度统计模块。频度统计模块分为2个阶段，构 
造 Aho-Corasick 自动机阶段、多串匹配频度统计阶段。首先 
将频繁模式候选集合中的字符串建立一个确定性的树形有限 
状态机，然后以文本语料视为主串作为该有限状态机的输 
入，使状态机进行状态的转换，当到达某些特定的状态时， 
说明发生模式匹配，将此状态对应的字符串频度加1,直至 
主串到尾部，统计完频繁模式候选集合中所有字符串频度。 

遍历频繁模式集合，输入大于频繁模式阈值 A 的字符串 
即可得到最终频繁模式。 

频繁模式的增量式发现算法流程如图1所示。 



图1频繁模式增量发现流程 


大规模语料下的频繁模式増量式发现算法描述 如下： 

输入 文本语料 C , 剪枝阈值 A fllter , 频繁模式阈值 A ， 局 
部串集合 A 局部串集合大小阈值 M , 频繁模式最大长度 iV , 
频繁模式集合 

输出 频度大于 A 的频繁模式集合 i ? 

步骤 1将文本语料 C 视为长字符串，从字符串首向尾部 
进行扫描，依次取得二元串，三元串，……，况元串，加入 
到局部串集合中，然后往后移动一个元，再取得二元串，三 
元串，……， W 元串，继续添加到候选集 合中； 添加时，查 
找候选字符串集合 S 中是否存在字符串，如果存在，则将字 
符串对应频度加1，如果不存在，则将字符串添加到局部串 
集合中，置频度为1;添加后，判断局部串集合大小是否大 
于 M , 若大于，则转到步骤2,否则继续 添加； 当到达文本 
结束时，转到步骤2。 

步骤2遍历局部串集合&对于频度大于 A fllter 的字符 
串，添加到频繁模式集合心遍历完毕，清空局部串集合& 
判断是否移动到字符串尾部，若是，则到步骤3,否则转回 
到步骤1继续提取短字符串。 

步骤3对频繁模式集合 i ? 中的所有字符串构建 Aho - Co - 
rasick 自动机，采用 Aho-Corasick 算法进行多串匹配，统计 
频繁模式集合 A 中字符串的频度，更新 i ?。 

步骤 4 遍历频繁模式集合 i ?， 当字串的频度小于 1 时， 
从集合 i ? 中删除字串，当频度大于1，保留字串。 
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步骤5 输出频度大于 A 的频繁模式集合 i ?。 

本算法的空间复杂度主要与局部串集合和频繁模式集合 
的大小有关，当字符串的平均长度为算法的空间复杂度 
为 0( MogMxp +\ R \\ og \ R \ xp ), 时间复杂度 0( Mp +\ R \ p + n)o 

4实验结果与分析 

为测试剪枝效率和算法在内存空间上的优化，分别对不 
同剪枝阈值下集合大小和内存空间消耗进行统计。实验测试 
环境是： CPU 是 Intel Core 2 Duo CPU P 8600 2.40 GHz ; 内存 
DDR 3 1067 2 GB ; 操作系统 Windows 7, 编译器 VS 2008。 以 
1.87 MB 的 《射 雕英雄传》为例，当获取其中长度从2 个〜 
10个汉字的所有不重复字符串，共可以取得2 012 501条字 
符串，即如果直接对全语料进行统计计数，直接对字符串进 
行计数，则候选集合的大小为2 012 501。语料仅为 1.87 MB 
时，条数已经达到百万级。可以预见，当语料大小在以上规 
模情况下，字符串将以亿计，必然超出一般的物理内存，导 
致不可能一次性对全语料进行统计。通过统计，当阈值 A 为 
300时，存在频繁模式143条。采用本文算法进行实验，令 
候选字符串集合 S 条数阈值 M = 100 000,频繁模式长度从 
2~10。针对不同的剪枝阈值，剪枝后频繁模式候选集合中的 
字符串条目数的曲线如图2所示。 



图2宇符串条数与剪枝阈值的关系 

可以看出，通过剪枝，减少了大量的低频字符串，当阈 
值为2时，已经远小于不通过剪枝的集合，剪枝率已达到 
99.96%。当设置不同的阈值时，频繁模式候选集合的大小继 
续呈下降趋势。在得到频繁模式候选集合后，对其用多模式 
串匹配算法统计频繁模式频度，对于不同阈值，占用的最大 
内存空间曲线如图3所示。 


剪枝阈值』 

图3最大内存消耗与剪枝阈值的关系 

另一方面，剪枝阈值的选取对频繁模式的召回率也有影 
响，当剪枝阈值设置过大时，召回率降低，通常在候选集合 
大小为10 000的情况下，剪枝阈值宜选取为频繁模式阈值的 
平方根。 


在对互联网上获取的关于音视频节目介绍与内容的不同 
大小的语料进行实验中，设置剪枝阈值 A fllt „ 为20,频繁模式 
阈值 A 为300,局部串集合大小阈值 M 为100 000,频繁模式 
最大长度 AT 为10,将本文算法性能同文献 [1] 中实现的基于 
后缀数组的频繁模式发现算法性能和基于后缀树的频繁模式 
发现算法性能进行比较，如图4所示。 



语料规校 <mb 

( a ) 基于后缀数组的频繁模式发现算法 



语料《樹 mb 

( b ) 基于后缀树的频繁模式发现算法 



语料规模細 

(0 频繁模式增量式发现算法 

图4 3种算法的最大内存消耗比较 

通常在语料规模为 iV 时，基于后缀数组的频繁模式发现 
算法运行时占用内存大小约为 10 iV ~15 iV , 基于后缀树的频繁 
模式发现算法运行时占用的内存大小约为 爾 ，而本文提出 
的大规模语料下频繁模式增量式发现算法运行时占用的内存 
大小仅为 2 N -3 N . 

由此可见，本文提出的大规模语料下的频繁模式的增量 
式发现算法消耗的内存仅为基于后缀数组频繁模式发现算法 
的20%左右，仅为基于后缀树的频繁模式发现算法的10%左 
右，在 2 GB 内存的限制下，最大可处理的语料规模可达800 
MB 以上。 

5 结束语 

本文提出一种新的频繁模式发现流程，通过局部信息得 

(下转第3 2 页) 
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Abstract: In recent years , eMule network , a kind of peer - to-peer ( P 2 P ) file-sharing network has become more and 
more popular . Along with its popularity , the demand to accurately determine the peer in eMule has also increased 
for two reasons : it is a critical step to accurately locate sources of files in P 2 P file-sharing networks , and the wanton 
spread of vulgar content makes it necessary to censor eMule . This demand allows everyone to put forward the 
problem of optimal peer identifier in eMule network . However , since Kad ID (the widely-used identifier in eMule 
network ) can be freely changed by users of eMule , there exists Kad ID aliasing , a single peer may correspond to 
multiple Kad IDs ; reversely , There also exists Kad ID repetition , which are multiple peers corresponding with a 
single Kad ID . Therefore , it is difficult to accurately determine the peer by using Kad ID . This paper attempts to 
solve this problem . First , the stability factor ( SF ) of peer identifier is defined to evaluate candidate identifiers . Then , 
a crawler named Rainbow is designed and implemented to collect peer information from multiple candidate 
identifiers ’ relationship in real eMule network . Note that Rainbow has been proved to be convergent and has low 
time and space complexity . Experimental results show that { userlD } is the optimal peer identifier in peer identifier 
set 2 {KadID ’ userID ’ IP} -{ ⑦} as { userlD } has the largest SF value . Later on , in order to quantify the extent of Kad ID 
aliasing , the relationship between { userlD } and {Kad ID } is discussed . Lastly , the effectiveness of the application 
of the optimal peer identifier is analyzed . Results show that peers are more accurately determined when using 
{ userlD } as the identifier of peers . All in all , the identification of optimal peer identifier provides a basis for future 
research of eMule network , and Rainbow serves as a useful tool for measuring real eMule network . 
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摘要： eMule 网络是近年来越来越流行的文件共享对等网络 .一 直以来，文件源的准确定位是文件共享对等网络 
的一个关键 步骤; 此外，不健康内容的肆意传播也使网络监管成为必需.这些都导致准确确定 eMule 网络中节点的需 
求，同时促使 eMule 网络最佳节点标识问题的提出.然而, eMule 网络中广泛使用的节点标识 KadID 因可被 eMule 用 
户任意更改，存在 Kad ID 别名，即单个节点对应多个 Kad ID 的情况 ，以及 Kad ID 重复，即多个节点对应同一个 Kad ID 
的情况，从而使用传统 Kad ID 很难准确确定节点.为解决这一问题，首先定义候选节点标识的稳定因子用以评价候 
选 标识; 然后设计并实现一个证明可收敛且时空复杂度不高的 eMule 网络节点信息采集器—— Rainbow ， 以获得实 
际 eMule 网络中节点的多个候选标识之间的对应关系信息.实验结果表明 ,{ userID } 的稳定因子最大,是节点标识集 
合 2 | KadID ’ useriD ' IP 1 _{0} 中的最佳节点 标识; 之后，为了量化 Kad ID 别名问题的程度，对 { userlD } 与 {Kad ID } 的关系进 
行 探讨; 最后对最佳节点标识的应用有效性进行分析，说明采用 { userlD } 作为节点标识能够更准确地确定节点.总之， 
所确定的最佳节点标识为 eMule 网络的研究奠定了基础, Rainbow 也为真实 eMule 网络测量提供了良好的工具. 

关 键词： 对等 网络; eMule 网络; 采 集器; 节点 标识; 稳定因子 
中图法分 类号： TP 393 文献标 识码： A 

eMule 网络 [1] 是一种混合类型的文件共享对等网络，其网络由集中式网络和纯分布式网络组成两部分，纯分 
布式网络采用了一种结构化对等网络协议一一 Kademlia 协议 [2] ，该网络主要用于 eMule 的文件和文件关键字的 
发布与查找并被一些研究者 [3 ’ 4] 称为 Kad 网络 .Ipoque 2008-2009 年度的因特网流量报告 [5] 指 出:依 地域不 
同， eMule 流量占 P 2 P 总流量的2%〜47%，占总因特网流量的1% 〜 26%.而且相关研究 [6 , 7] 表明， P 2 P 流量在过去几 
年一直呈上涨趋势. 

当在 eMule 网络中下载文件时，首先要找到拥有某文件的若干节点 ( eMule 网络中，节点是被指定了某个标 
识并参与到 eMule 网络的物理机器)，然后进行文件传输.其中涉及到影响文件共享性能的一个关键 步骤: 资源的 
准确定位，即准确地找到拥有某文件的源节点.此外，被广泛应用的 eMule 网络为版权侵犯和不健康内容传播提 
供了温床，这促使了对其进行监管的需求.资源的准确定位和网络监管都必须准确地确定节点.然而在 eMule 网 
络中 ， Kad ID (由 eMule 用户在本地随机生成的一个长为128位的节点标识)作为节点的一种常用标识，可以被 
eMule 用户任意更改.使得一个节点可能对应多个 Kad ID , 导致 Kad ID 别名 (Kad ID aliasing %; 此外，多个节点也 
可能对应同一个 Kad ID ， 导致 Kad ID 重复 (Kad ID repetition ™) .可以直观认为 ， Kad ID 并不是 eMule 网络的最佳 
节点标识. 

本文对 eMule 网络最佳节点标识问题进行分析和探讨.首先提出标识合适性度 量:稳 定因子并对最佳节点 
标识进行形式化 定义; 然后设计一个 eMule 网络节点信息采 集器: Rainbow 用于收集候选节点标识的对应 信息； 
最后通过实验分析获得 eMule 网络的最佳节点标识，从而为资源定位和网络监管奠定基础.本文第1节介绍相 
关工作.第2节提出 eMule 网络节点标识相关度量和最佳节点标识定义，并对 eMule 中常见的两个标识 {Kad ID } 
和 { userlD } 的关系进行探讨.第3节介绍我们的实验 工具: eMule 网络节点信息采集器 Rainbow 的设计思想 
和实现原理，并对其收敛性、时间复杂度和空间复杂度进行分析.第4节对实验结果进行分析.最后在第5节对 
本文主要工作进行总结. 

1相关工作 

在对真实 P 2 P 网络进行测量分析时 ，一 些研究 [3 AM 1] 发现了某些节点标识(比如 IP,Kad ID) 的不稳定现象， 
但并没有深入研究“最佳节点标识”问题 .2003 年， Bhagwan 等人 [8] 在测量 Ovemet 的节点可用性 (peer availability , 
即节点在线时长与测量时长的比率)时，发现一个节点可能对应多个 IP 地址，即 IP 地址别名.他们指出，这将导致 
大大低估节点可用性 .2005 年, Kutzner 等人 [9] 在测量 Overnet 的一些性能参数(比如网络大小、节点可用性)时， 
也发现 IP 地址别名.文献[4，10，11]发现了 Kad ID 别名，但没有深入分析其具体原因 .2009 年, Yu 等人 [3] 测量了 Kad 
网络中 Kad ID 重复程度，据他们的数据显示,19.5%的节点(包括在线节点和离线节点)和4.5%的在线节点具有 
Kad ID 重复，同时也指出 ， Kad ID 重复可能会导致对 Kad 网络测量的错误结果，其实验结果表明 , Kad ID 重复会 
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导致 Kad 网络的发布和查找性能降级.据我们所知，本文首次提出 eMule 网络最佳节点标识问题,目的是为了找 
到 eMule 网络中的最佳节点标识，以设法减少测量错误等负面影响和精确确定节点. 

节点标识别名和重复问题的测量需要采集器来获得数据源 .2002 年, Saroiu 等人 [12] 率先使用主动测量方法 
对当时最为流行的 Gnutella 和 Napster 进行了拓扑测量 .2005 年， Stutzbach 等人™在前人工作的基础上改进了 
主动测量方法，并开发出了快速分布式 Gnutella 拓扑采 集器: Cruiser . 实验表明，如果采集器采集速度太慢，节点震 
荡 (peer churn , 新节点加入和老节点离开网络的现象)可能会导致错误,从而使得提高 Crawler 的采集速度成为提 
高测量准确性的关键问题 .2008 年，王勇等人 [14] 针对 Gnutella 网络设计了基于正反馈的分布式 Gnutella 拓扑采 
集器: D - Crawler ， 提出了度量采集器准确性和完整性的衡量指标,分析了 Gnutella 网络拓扑图的度等级分布特 
征、度频率分布特征以及小世界特性. 

Kademlia 协议的实现有 Overnet、eMule 网络和 Bittorrent [15 ^ DHT 网络.文献[8,9，16]对 Ovemet 进行了测 
量 .2006 年， Stutzbach 等人 [17] 针对 eMule 网络提出了计算查询性能的分析框架，并开发出了两个 软件: kFetch 和 
kLookup 用于采集和计算 eMule 网络的查询性能 .2006 年， Stutzbach 等人 [18] 对3个 P 2 P 网络: Gnutella、eMule 
网络和 Bittorrent 进行了测量和相应的节点震荡分析 .2007 年， Steiner 等人 [4a °' 11] 设计了 eMule 网络采集 
器: Blizzard 并进行了为期179天的 eMule 网络采集，获得了节点的地理分布、会话时间、节点可用性和生命周 
期等测度的测量结果 .2007 年， Falkner 等人[ 19] 在 PlanetLab 实验条件下，对 Bittorrent 的一个客户端 Azureus 的 
DHT 网络进行了测量 .2006 年，刘琼等人 [ M ] 对当时的 P 2 P 测量研究现状进行了详细的综述，将 P 2 P 测量研究分 
为3 类: P 2 P 拓扑特征的测量、 P 2 P 流量特征的测量和 P 2 P 可用性(分为主机可用性和内容可用性)的测量. 

P 2 P 网络采集目前有3种方 式:完 全采集 (full crawl )、 区域采集 (zone crawl ) 以及本文采用的独特随机采集 
(random crawl ). 完全采集即快速地采集整个 P 2 P 网络的节点信息.文献 [4] 对 eMule 网络进行了多次完全采集. 
其优点 是:获 得信息 完整; 其缺 点为: eMule 网络的用户规模已达百万级，完全采集耗费时间过长，节点震荡带来 
的影响加剧，使采集的节点信息有多个瞬态快照的堆叠现象.区域采集只采集 Kad ID 前立相同的节点空间的 
节点信息.文献 [18] 进行了前10/12位相同的区域采集，文献 [4] 进行了前8位相同的区域采集.其优 点是: 采集时 
间远远小于一次完全采集的耗时，且因为 Kad ID 的随机生成性，使得一个区域的节点分布接近均匀分布 [4] ，使区 
域采集具有一定的代表性.其缺点 为:不 能获得 eMule 网络节点的完整信息，例如前8位相同的区域采集只能产 
生完全采集的1/256的节点信息.随机采集不固定) H 立前缀，从节点总体中随机抽取一些节点来获得他们的信息. 
随机采集的优缺点与区域采集类似.此外，它还具有配置灵活的优点，即采集的节点数量是一个可以灵活配置的 
参数. 

虽然已有的 P 2 P 测量工作取得了一定进展，但已有工作主要关注拓扑或节点特征(比如节点可用性)测量， 
而并没有针对最佳节点标识问题设计可用的采集器.本文设计实现了 eMule 网络节点信息采集器一一 Rainbow , 
以获得 eMule 网络中节点候选标识集合5= {Kad ID , userID ， IP } 的对应关系信息，并以此为数据集来试图解决 
eMule 网络的最佳节点标识问题. 

2 eMule 网络最佳节点标识 

2.1 度量定义 

Kad ID 别名问题的存在导致有寻找更好 eMule 网络标识的需求，本节提出了度量标识合适性的稳定因子 
等概念. 

定义 1( 稳定因子 (stability factor, 简称 SF). 给定候选标识 {xj e -{<?} ，存在 m 个不同的取值{初, 

且对4的任意一个取值％,对应有 Py 个元组(这些元组为以{•« 1 ，12，...，4}为标识的包含巧的取值组合). 
则 U ,} 的稳定因子定义为 

m 

Tpj 

SF = ^ — ( 1 ) 

m 
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公式 (1) 中， ^ FeU .+ co )， 在 m 不变(或不变)的情况下，越大(或 m 越小)表示有更多的元组与{.^_}对 

j=i J=i 

应，即以 U ,} 作为节点标识越稳定越好. 

例1:假设人的候选标识集合为现在有3个 人:甲 、乙、丙.其中 :甲有 1个 姓名: 李木，1个学 
号:1423;乙有1个姓 名:王 小虎，2个学号:2325,2985(不同学校具有不同的学 号); 丙有2个姓名 :张意 (曾用名)、张 
大全，3个学号:3456,3213,3829.则姓名有4个不同的取值 { 李木，王小虎，张意，张大全}，对李木这个取值，对应有1 
个元组 :{ 李木，1423}，即有仍=1;对王小虎这个取值,对应有2个元组:{王小虎，2325}和{王小虎,2985}，故有 p 2 =2. 
对张意，对应有3个元组 :{ 张意，3456}、{张意，3213}、{张意， 3829}, 即有 p 3 =3; 同理，对应张大全的 p 4 =3 .可求得{姓 
名 } 的稳定因子 SF [ tt ：&) =( pi + p 2 + p 3 + p 4 )/4 =(l +2+3+3)/4=9/4. 同理， { 学号 } 的稳定因子 号尸 ( 1+1+1 +2+2+2)16= 

3/2，{姓名，学号 } 的稳定因子 Sf >*,« i =( l +1+1+1+1+1+1+1+1)/9=1 .此例中， { 姓名 } 的稳定因子最大. 

定义 2( 最佳节点标识).假设对节点的候选标识集合 
(2 5 - {<5})4 SF fl = max (5 y 6 ), 则 a 是集合5 1 中的最佳节点标识. 

例 2: 同例1的情景 , S ={ 姓名，学号 }，2 M ®} = U 姓名 U 学号 },{ 姓名，学号 }} ，狀 |( Mi =9/4, Sf > q =3/2, 
5 T >*, M 1 =1， 从而尸 max (5 T >*}，5^( 学号丨，姓名}是 S 中的最佳节点标识. 

选出集合 S 的最佳节点标识后，为对最佳节点标识与候选标识的关系正常程度进行归-化度量，提出最佳 

节点标识-候选标识/ 1 关系度量:候选标识正常度 (candidate identifier normality , 简称 C 7 A 0 的定义. 

定义 3( 候选标识正常度). 


CIN=~ -^- ( 2 ) 

' Zyi xi + ' Z z uj x j 
/ =1 )=2 

其中， y , 为最佳 节点标识与候选标识 P 的1对；关系的数量(例如 ， f _= l 表示最佳节点标识与 P 的1对1关系,;'=4 
表示最佳节点标识与 P 的1对4关系 )， Zl </ 为最佳节点标识与的 j 对1关系的数量(例如^=3表示最佳节点标 
识与 P 的3对1关系). 

C / iVs [0， l ] 反映了 eMule 网络中最佳节点标识——候选标识/>关系的正常度 . C 7 JV 越大，说明最佳节点标识 
与候选标识的一一对应关系比率越高，正常度 越高; 反之, C /7 V 越小，则说明最佳节点标识与候选标识的一对多关 
系或者多对一关系比率越高，正常度越低. 

例3:同例1的情景，在选定{姓名 } 作为集合{姓名，学号 } 的最佳节点标识后，现对 { 学号}的 C /7 V 进行计算 .{ 姓 
名}和{学号 } 的关系 ={( 李木， 1423), (王 小虎，2325)， (王 小虎， 2985), (张意 ,3456), (张意,3213)，(张意,3829)，(张大 
全，3456)，(张大全，3213)，(张大全，3829)}，可得其中{姓名}与{学号}的1个1对1关系 :( 李木 ,1423),1 个1对2关 
系 :( 王 小虎，2325)， (王 小虎， 2985),2 个1对3关系 :( 张意，3456)，(张意，3213)，(张意， 3829); (张大全，3456)，(张大 
全， 3213), (张大全， 3829),3 个2对1关系(张意，3456)，(张大全， 3456); (张意 ,3213), (张大全， 3213); (张意，3829)，(张大 

全,38 2 9).所以，学号,=- i -= 1/15 .同理，容易算出 CW {姓名尸 1， C / AT { 姓名学号尸 1. 由此例可见, 

(Ixl + lx 2 + 2 x 3) + 3 x 2 

因{姓名}和{学号 } 的对应关系中包含大量的一对多和多对一关系，导致 CW { M 1 远低于和 C / iV { M ,«,. 

2.2 {userlD} - {Kad ID } 关系 

eMule 网络中, userID pl ] 是通过随机数生成算法产生用于 eMule 网络的信誉系统 (credit system ) 的128位标 
识符.本节主要探讨 { userlD } 与 { KadID } 之间可能的复杂关系. 

(1) 一对一 关系: { userlD } 与 { KadID } ——对应•这是 { userlD } 与 {Kad ID } 之间的正常 关系； 

(2) 一对多关系 :一个 { userlD } 对应多个不同的 {Kad ID }. 

产生原因分析: a ) NAT(network address translation , 网络地址转换)后， SP 局域网内多个节点各自有不同的 
{Kad ID }， 通过共同的公网出口共享同一个 IP 地址和 { userlD }, 从而产生 { userlD } 与 {Kad ID } 的一对多 关系; 
b ) eMule 网络中可能存在 Sybil 攻击(即一个节点伪造多个身份进行网络攻击) [22] ,该攻击行为在模拟多个客户 
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端时，可能会使用同一个 userlD 而给每个模拟的客户端分派不同的 Kad ID , 从而产生 { userlD } 与 {Kad ID } 的一 
对多关系. 

(3) 多对一关系:多个 { userlD } 对应同一个 {Kad ID }. 

产生原因 分析: a ) 用户利用 {Kad ID } 可以任意指定的漏洞，为多个节点指定同一个 {Kad ID } 而让每个节点 

使用不同的 userlD ， 用于 eMule 网络探测或 攻击; b ) 哈希冲突.在2 128 空间产生相同哈希的可能性多大呢?即使 

假设 eMule 网络中有10亿个节点，每个节点随机生成的 {Kad ID } 产生冲突的可 能性： 

, 2 128 x (2 128 -1) x ... x (2 128 - 10 9 + 1) n 

P=1 -- 

可见，哈希冲突的几率极低. 

3 eMule 网络节点信息采集器 

虽然到目前为止，对 P 2 P 网络采集器的研究已经很深入.但是如下两个原因促使本文进行 eMule 网络采集 
器的设计与实现:1)现有的 eMule 网络采集器只能与节点进行 UDP 通信，只能获取有限的节点信息.而本文需 
要获得更丰富的节点信息(比如节点的 userlD )， 必须与节点进行 TCP 通信; 2) 没有公开可用的 eMule 网络采集 
器.基于以上原因，促使本文设计实现了自己的 eMule 网络节点信息采集器 Rainbow . 

3.1 eMule 网络节点信息采集器设计 

我们提出如下问题: eMule 网络是否是可被采集的网络?设计 Rainbow 是否可行?首先， eMule 网络肯定是可 
被采集的，因为己经存在一些 eMule 采集器的实现 ( Crais er [18] ， Bli ZZar d [4] )， 这些都是很好的例证.就第2个问题， 
我们对 eMule 网络源码进行了详细分析，得出它具有两个主要特点:1)前缀匹配路 由:节 点间的距离通过节点 
Kad ID 的按位异或值来度量.例如 :节点 A 和节点 S 的 Kad ID 分别为1011和0010,则 A 与 S 的距离 
= 101100010=1001.高位对距离的影响较大，如果两个节点高位相同位数（即前缀匹配)越多，则距离 越小; 
2) 迭代式路由 (iterative routing ): 当开始搜索某个目标时，在路由表查找到距离目标最近(局部最近)的一些节点 
信息(由 Kad ID 、 IP 、 TCP 端口和 UDP 端口组成)，然后向它们发出查找请求.这样通常都能够得到一些距离更 
近的节点，然后再向那些更近的节点发送查找请求，按照这种方式进行路由，就能够得到距离目标最近(全局最 
近)的节点.这些特点使得 Rainbow 的设计成为可行.我们可以采用迭代式采集的方式，即从一批己知的初始节点 
开始，询问这些初始节点并等待返回下一批新节点信息，接着再询问返回的新节点以获得再下一批新节点信息. 
如此迭代，预计可以获得越来越多的节点信息. 

考虑到和节点进行 TCP 通信的时间开销(包括建立 TCP 连接、发包后的延迟等待等)较大，而进行单次采 
集的时间又不可过长，因过长的采集时间会导致节点震荡的负面影响加剧.这就决定了单次采集的节点规模不 
可过大(典型值10000左右).本文设计 Rainbow 的目的是为了采集 eMule 网络中节点的候选标识集合 {Kad ID , 
userID ， IP } 对应关系的信息，且单次采集获得的这些信息会以 (Kad ID ， userID , IP ) 为主键存入数据库表 Peerlnfo . 
表的记录条数越多，对应的统计结果越有代表性.而区域采集固定了 Kad ID 的 A : 位前缀，只能采集固有的1/(2, 
的节点集合的候选标识集合对应关系信息.故本文采用了随机采集的方法，即单次采集不固定 i 位前缀，从节点 
总体中随机抽取一些节点以获得他们的信息.可知，单次采集的节点比区域采集获得的样本节点更具有随机性, 
而且，进行多次随机采集会比区域采集获得更多的记录条数. 

3.2 eMule 网络节点信息采集器实现 
3.2.1 Rainbow 系统框架 

如图1所示， Rainbow 系统框架由3个模块组成:节点采集模块 (peer crawler )、 节点信息收集模块 (peer 
information gatherer ) 和写数据库模块 (Write DB module ). 我们为 Rainbow 维护了一个种子节点 ( seed ), 其路由表 
会不断更新，节点采集模块首先与种子节点联系，获得《个初始节点(因种子节点的路由表不断更新，每次获得的 
u 个初始节点一般会不同)，然后与 eMule 网络进行 UDP 通信，展开迭代式采集以获得一个节点集合(简称 S UDP ) 
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的部分信息 ( IP,Kad ID,UDP port 和 TCP port ). 节点信息收集模块和中的节点进行 TCP 通信以获得更丰富 
的节点信息 ( userlD ). 写数据库模块将中的节点的完整信息写入数据库表 Peerlnfo , 并将其他的 log 信息(单 
次采集时长、采集节点数、在线节点比例)写入相应数据库表. 



Fig.l Framework of rainbow system 
图 1 Rainbow 系统框架 


3.2.2 Rainbow 采集算法 

Rainbow 通过改造 eMule 客户端实现，模拟一个 eMule 网络正常节点，从种子节点获得初始节点列表后，加 
入 eMule 网络进行釆集 . Rainbow 采集算法采用了多线程实现，包括线程1〜线程5,其详细的算法描述见算法 1. 
由描述可见，线程1、线程2对应模块 1( 节点采集模块)的功能，即和节点进行 UDP 通信，进行节点收集.其 中:线 
程1负责给节点发送 UDP 查询消息6⑽以进行迭代式 采集; 线程2负责分析 UDP 响应消息 
将去重后的节点存储起来.线程3、线程4对应模块 2( 节点信息收集模块)的功能，即和节点进行 
TCP 通信，获得节点的更丰富的信息.其中 :线程 3负责和节点建立 TCP 连接并给节点发送 TCP 查询消息 TCP 
心// 0 ,以获得节点更多的 信息; 线程4负责处理 TCP 响应消息 TCP hello answer , 并将返回的 userlD 信息写入相 
应节点中.线程5对应模块 3( 写数据库模块)的功能，即将采集到的信息写入数据库. 

算法 1. Rainbow 采集算法. 

Input: seed ; 

Output: detailed information of peers above a threshold value n. 

Data: qelem: struct ) IP,UDP port,TCP port } 

Data: key: struct { IP,UDP port , Kad ID } 

Data: peer, struct { IP , UDP port,TCP port,Kad ID , userlD , status } /* status = UDP — Requested , 

UDP — Responded , TCP _ Requested , TCP _ Responded , TCP — Cantcon */ 

Data: shared queue qpeersUDP=queue of qelem elements 
Data: shared queue qpeersTCP=queue of qelem elements 
Data: shared map mpeers=m?Lp of {key,peer) elements 

Data: bool UDPover=0 /*the Boolean variable to ensure the convergence of UDP communication */ 

Data: bool TCPover=0 /*the Boolean variable to ensure the convergence of TCP communication */ 

1: the main thread start thread 1 and the iterative crawl begin 
Thread 1. UDP send thread 

2: contact seed , and initialize qpeersUDP with u initial peers returned from seed 
3: start thread 2 and thread 3 

4: while size(mpeers)<=n /*n is the maximum peer number of a single crawl */ 

5: do while size(qpeersUDP)>0 

6: do send UDP message bootstrap_req to qpeersUDP’s first element p 

7: remove p from qpeersUDP 
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8: if pempeers 

9: then p . statustUDP—Requested 

10: wait ( T w ) /* T W is the waiting time needed for the last response bootstrap—res message */ 

11: UDPover < r - 1 

12: start thread 5 

Thread 2. UDP receive thread 

13: while true 

14: do if UDPover 

15: then exit thread 

16: wait for bootstrap 一 res message 

17: if wait { bootstrap _ res)>Ti /* T , is the timeout time waiting for bootstrapjres messages */ 

18: then sample some peers from mpeers and send bootstrap_req messages to them /*incentive 

mechanism */ 

19: for each p e bootstrap jres message 

20: do qelem — p . info , key <^ p . info , peer — p.info 

21 peer . status <— UDP _Responded 

22: if key 芒 mpeers 

23: then mpeers . add ({ key , peer )) 

24: qpeersUDP . add ( qelem ) 

25: qpeersTCP . add ( qelem ) 

Thread 3. TCP send thread 

26: start thread 4 

27: while true 

28: do if TCPover 

29: then exit thread 

30: while size ( qpeersTCP )>0 

31: do wait the number of current TCP connections>m 

32: try to establish asynchronous TCP connection with qpeersTCP’s first element /?, and send 

TCP hello message to p 
33: p . status <^ TCP_Requested 

34: remove p from qpeersTCP 

Thread 4. TCP receive thread 
35: while true 
36: do if TCPover 

37: then exit thread 

38: wait for TCP hello answer message 

39: update the userlD value of corresponding peer p in mpeers 

40: disconnect TCP connection with p 

41: p . status <^ TCP_Responded 

42: for each TCP connection tcscurrently established TCP connections 

43: do if te’s waiting time>=T /*T is the maximum time of TCP connection ^! 

44: then disconnect TCP connection tc 
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45: set the status of corresponding peer as TCP_Cantcon 

Thread 5. write database thread 
46: for each peerempeers 

47: do wait for peer.status=TCP_Responded or TCP_Cantcon 

48: write the information of peer into Peerlnfo 

49: TCPovenl 

3.2.3 Rainbow 采集算法收敛性分析 

我们考虑线程1、线程2在用 map 去重的情况下，从 iV 个节点的集合中随机采集 n 个节点 ( n e [ l , iV ]) 是否收 
敛，即是否能在有限时间内完成特定采集任务.若是，为多长?首先对该问题进行形式化，该问题等价于从一个包 
含 iV 个元素的集合 Si 中，进行随机放回抽样，每次抽取 C 个 ( C e [ l ， n |). 在考虑去重情况下，抽取 n 个不同元素到集 
合 S 2 中，其抽取次数是否有限?若有限，其抽取次数为多少？ 

例如:从中抽取大小 n =4 的集合 S 2 ，每次抽2个，则 iV =5， c =2 .去重情况 指:第 1次抽到{1，2}，第 
2次抽到{2,3},则现在抽到的元素集合为{1，2,3}(去重后).第3次抽到{1，3}，则现在抽到的元素集合还是 
{1,2,3} (去重后)，仍没有达到4个元素的要求.在第4次抽到{3,5}，抽到的元素集合 {1, 2,3,5}(去重后)，才满足 n =4. 
在这个过程中，抽取次数是有限的，其抽取次数为 4. 

在此，我们为了求解这一问题对这个问题进行简化，考虑 c = l 的特殊情形，即从&中每次只抽取一个元素, 
求总共需要抽取多少次.这也对应了采集在最坏情况下(通常情况下，一次会抽取较多相互不重复的元素，比如 
20个)所需要的抽取次数. 

我们对简化后的问题 ( c = l ) 进行分析，得出如图2所示的状态转移图.图中的圆圈表示状态，圆圈内数字表示 
S 2 的 大小吆 I ,箭头上的数字表示从一个状态转移到另一个状态的概率.令待抽集合为 Si ，抽到的集合为 S 2 . 初始 
时 IS 2 l =0, 转移到状态 IS 2 I =1 的概率为1,而维持在状态 IS 2 l =0 的概率为0;当 IS 2 I =1 时，转移到 IS 2 I =2 的概率为 ( iV -1) W , 
维持在状态 IS 2 I =1 的概率为 1/ iV ; 依此类推，当 IS 2 I =;-1 时，转移到状态 LS 2 I =; '的概率为 ( AM +1) W ， 维持在状态 IS 2 I =;-1 
的概率为 (!'- 1)脱 



Fig . 2 Chart of state transition 

图 2 状态转移图 

引理 1. 从包含 N 个元素的集合&中进行随机放回抽样到&中，令 &为 从状态 LS 2 I = Z -1 转移到状态 IS 2 I 
需要进行的抽取次数且^是随机变量，则^的数学期望 满足： 

E{q t ) N 


N-i + l 




(3) 


证明 :由图 2 可知，抽 1 次从状态 LS 2 I =/-1 转移到状态 LS 2 I =/ 的概率为 #^ + 1 ，抽2次从状态 LS 2 I =/-1 转移到 


N 


状态 IS 2 I =/ 的概率为 


N — i + \ 
^ N ^ ' 


N 


1 M — i 4- } 00 

2,依此类推 ，则祝 ％) = 


N 


;=i 




1 J 

x j 


N 

⑽ D 


引理 2. 从大小为 W 的集合&中随机放回抽样 w 个不同的元素到 * S 2 中，即当每次只抽取一 
个元素即 c = l 时，令所需要的抽取次数为随机变量 X ( M 〃,1)， 则 X ( Mn ， l ) 的数学期望满足： 

N 


E[X(N,n ， l)] = X_ 


.‘U + 1 

证明:该问题等价于计算图2中从状态叫=0转移到状态 1以1 所需要的总抽取次数的数学期望.由引理 


⑷ 
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得知，单步的抽取次数的数学期望 £(9,.) = —-—, !_ e [ l ， n ], 易知，从状态 LS 2 l =0 转移到状态 LS 2 I =« 所需的 n 步的总 

N-i + \ 


抽取次数的数学期望 E[X{N,n,V)] = E(q x + q, + — + ?„) = X^,) = Z —-— . □ 

由公式⑷知，五 [ X ( Ml , l )]= l ; n>l 时， £[ X ( Mn , l )]> n . 

定理 1. IA 大小为 N 的集合&中随机放回抽样;7个不同的元素到5 2 中，即 IS 2 l = n ， ne [ l , AH . 当每次只抽取 c 
个元素时 ( c 个元素互不相同且 ce [ l ，《]) ，令所需要的抽取次数为随机变量 X (7 V , W ， c ), 则 X ( iV ， n ， C ) 的数学期望 满足： 


E [ X ( N , n , c )] = 


£[ Z ( Af ,», l )] 

£[ X ( iV , c , l )] 


(5) 


证明 :问题 的最终效果是从集合 & 中抽取了《个不同的元素到&中，而获得该最终效果可有两种不同的抽 
样粒度 :一种 是一次从集合 A 中抽取 c 个不同的元素，即抽样粒度为 c ( 对应图3左侧楠圆的抽样方 式); 另一种是 
一次从集合&中抽取1个元素，即抽样粒度为 1( 对应图3右侧椭圆的抽样方式).考虑抽样粒度为 c 的 £[ X ( A ^, c )] 
次抽取中的单步抽取(比如图3左侧小框0,即考虑从大小为#的集合&中随机放回抽取 c 个不同元素的子问 
题，若抽样粒度为1，则由引理2知，其抽取次数为五 [ X ( iV ， c , l )]. 由图3易知 

E [ X ( N , n , 1 )] = E [ X ( N , n , c )] xE [ X ( N , c , 1 )] ^> E [ X ( N , n , c )]= 取(❹’ 1 )] . □ 

£[ Z ( iV , c , l )] 



Fig . 3 Chart of equivalent sample problem 

图 3 抽取问题等价图 


由公 式⑶可 见,鸾 c=l H , E [ X ( N , n , c )] = 


E [ X ( N , n , l )] 

E [ X(NXM 


= £[ X ( Af ,«,!)] = 公式 (4) ，所以公式 (4) 是公式 (5) 在 c=l 


_特殊情形.当^时’驟 ㈣ = | g ^ = 1 ，即当抽样粒 度为” 时’ 从大彻 嶋中随机放 
回抽样《个不同元素的抽样次数的数学期望为1，这也与实际情况相符. 
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定理 2. Rainbow 采集算法对节点集合进行随机采集、区域采集和完全采集都是收敛的. 

证明: 在不考虑去重所带来的额外抽取次数的情形下， Rainbow 采集算法的线程1的收敛性由线程1的语句 
4的阈值判断和线程2的语句17、语句18引入的激励机制确保，线程2的收敛性由布尔量和线程2 
的语句14、语句15 确保; 另一方面，在考虑去重所带来额外的抽取次数的情形下，从线程1的语句6可见, 
Rainbow 采集算法通过给节点 p 发送 UDP 消息 bootstrap_req 来进行迭代式采集，节点在收到 bootstrap_req 
消息时，会从本地路由表随机选择20个节点信息填充到 UDP 消息的 bootstrap—res 中返回.接着，线程2会处理 
返回的 bootstrap_res 消息,将其中20个节点信息去重存入 mpeers 中.综上，线程1、线程2从节点集合5^中进 
行采集的抽样粒度为 c =20 .故由定理1得知，从&中抽取 n 个元素的抽取次数的数学期望为 E [ X ( N , n , c )]= 

免 N 

£[汾况>1,20)].当进行完全采集时， n = jV , 从而抽取次数的数学期望 £[ X ( jV ， jV ，20)]= 冗~二 + 1 .因为采集总体大 

^ N 

小 OA ^ IOSWO , 所以 f ； —-— « 20 ,故可得 £[ X ( W , Af ,20)]« 观_ + 1 ) + ’) (， a 0.577218 为欧拉常数）.线 
TTiN-i + l 20 

程1、线程2在考虑去重所带来额外的抽取次数的情形下进行完全采集是收敛的，且其收敛时间复杂度为 
0( M _. 因为随机采集和区域采集都只抽取-•部分节点，故其抽取次数的数学期望都满足 E [ X ( N , n , c )]< 
£[沿％况0]，》<况所以线程1、线程2在考虑去重所带来额外的抽取次数的情形下进行随机采集和区域采集也 
都是收敛的. 

线程3、线程4只是在线程1、线程2收集了节点的前提下进一步和节点进行交互以获得更多的关于节点 
的信息，而线程5只是最后将收集到的信息写入数据库，所以线程3〜线程5都不需要考虑去重所带来额外的抽 
取次数的情形.由算法描述可见，线程3的收敛性由布尔量 TCPover 和线程3的语句28、语句29确保，线程4 
的收敛性由布尔量 TCPover 和线程4的语句36、语句37确保.此外，由线程5的算法描述可见，它只有一个简 
单的 for 循环，故线程5是收敛的. 

综上， Rainbow 采集算法进行随机采集、区域采集和完全采集都是收敛的. □ 

由定理2可知， Rainbow 采集算法的线程1、线程2是收敛的.本文在实验中令 Afc 4 xl 0 6 , n =20000, 则抽取次 


数的数学期望 E [ X ( N , n ,20)] = 


20 ^° 4xl0 6 

4x 10 6 -/ + 1 
^^ 4xl0 6 ^_ 
t?4xl0 6 -i' + l 


*1003 ，说明比不考虑去重的抽取次数 (1000 次)仅多带来时间 


开销0.3%.故下节在计算线程1、线程 2( 即 UDP 通信)的时间复杂度时不考虑去重所带来的时间开销. 
3.2.4 Rainbow 采集算法时间复杂度分析 

由线程 1- 线程5可见，3个模块一一节点采集器、节点信息收集器和写数据库模块可以实现并发操作.为 

保证在写数据库时共享变量 mpeers 的大小固定以确保迭代器 
不出现指针异常,必须在 UDP 通信处理完成后才能启动写数据 
库线程，即模块1、模块3需要串行操作.故可得3个模块的并发 
流水线图如图4所示. 

UDP 通信(线程1、线程 2) 的时间复杂度计算 如下: 假设从 
种子节点获得的初始节点数为《，向节点发 bootstrap_req 包的回 
包率为 P ， 令线程1中的语句6~语句9所需时间为^(纳秒级)， 
UDP 通信延迟(从发送 bootstrap_req 包到收到 bootstrap _ res 包 
所需延迟）为【2,则 UDP 通彳目获得 w 个节点所需要的时间 Tudp 可通过 Tjj [ jp ={ uxti + t 2)+(20' xuy - p ' xti + t 2)+ 
[(20><“) 2 ></^; 1 +; 2 ]+...+[(20><“) (| 一 1 )><^; 1 +; 2 ]+7 1 „ 1 推导出: 







Write DB module 



Peer 

information gatherer 


Peer crawler 

- ► 


Fig . 4 Pipeline chart of Rainbow’s modules 
图 4 Rainbow 各模块流水线图 
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= uxt l + ixt 2 + 


(20x M )/^[(20My -1 _l] 

20 u-l 


+ 1 


⑹ 


公式 (6) 中,/ 满足 (20 wy ；7> m > / = 


login / p ) 
log 20m 


•而且，因 所以 T ( jDp ^ ixt 2+ T w . 


TCP 通信(线程3、线程 4) 的时间复杂度计算如 下:假 设能同时建立的异步 TCP 连接数阈值为 m ， TCP 连接 
超时时间为 r , 则线程3、线程4中循环段中语句所需的 CPU 耗时以及 TCP 通信延迟 ( TCP 包在网络中的耗时) 
相比 r 都可以忽略不计.则与 n 个节点进行 TCP 通信在最坏情况下(每个节点都需要时间 r 才获得响应)所需时 
间7>„可计算为 


T T cp = 一 

m 


(7) 


写数据库线程(线程 5) 的时间复杂度计算 为:假 设写一条数据库记录耗时为 f 3 (可变值，与数据库表现有大小 
有关).线程5循环段中语句所需 CPU 耗时相比 f 3 可以忽略不计，则将《条节点信息去重写入 Peerlnfo 所需时间 
计算如下： 


TwrileDB=n'Xt3 (8) 

3.2.5 Rainbow 采集算法空间复杂度分析 

我们从全局来考虑 Rainbow 采集算法的空间开销(包括线程1~线程 5), 其空间开销主要由3个全局结构带 
来，分别是 gpeewC / ZXP ， 你 leerarCP 和 mpeers ■(见 rainbow 采集算法全局量部分的第3 行〜第 5行).其中,® jeerst / D /", 
qpeersTCP 都是元素为 qelem 的队列，而 qelem 是由 IP,UDP port 和 TCP port 构成的结构体，占 4 B +2 B +2 B =8 B 
(1 B =1 字节)内存 . mpeera 是由结构体和 peer 组成的 map , 其中， fey 为由 IP，UDP port 和 Kad ID 组成的结构 
体，占 4 B +2 B +16 B =22 B , 而 peer 为由 IP,UDP port,TCP port,Kad ID,userID 和 status 构成的结构体，占 4 B +2 B + 
2 B +16 B +16 B +1 B =41 B 内存.算法中的 map 用红黑树实现 ，一 般而言，其空间开销 = n < 用静态数组来存储的大小 (r 
的典型值大约为3~4).综上， Rainbow 采集算法在进行《个节点的采集时，在最坏情况下(情况较好时，® jeensi / DP ， 
qpeersTCP 在算法中一般会及时清空)的空间开销 S £ ■可通过 :1 S £= nx {[2 x (8+4)]+ rx (22+41)} 推 导出： 

5£= nx (24+63 xr ) (9) 


3.3 小结 


为从 eMule 网络中采集3个候选标识集合 {Kad ID ， userID , IP } 之间的对应关系信息，设计实现了 eMule 网络 
节点信息采集器一一 Rainbow ， 并对其采集算法进行了详 细介绍 ，同时对其收敛性和时空复杂度进行了详细的 
理论分析.总之， Rainbow 采集器具有如下特点： 

1) 可以对 eMule 网络进行随机采集.此外，经过适当的配置,也可以进行完全采集和区域 采集； 

2) 可以和节点进行 TCP 通信，获得相比传统采集器更加丰富的 信息； 

3) 理论分析表明，采集算法是收敛的(定理2)，且时空复杂度(公式 ⑹ 〜公式 ⑼) 不高. 


4实验结果及分析 


4.1 实验数据 

应用 Rainbow 在如下配置的两台机器上进行了数据采集.硬件环境 :2.21 GHz 双核处理器 /8 GB 内存/ 
100 Mb / s 局域网带宽服务器、 2.8 GHz 双核处理器 /2 GB 内存 /2 Mb / s 带宽 ADSL PC 各一台.软件 环境 : Windows 
Server 2003 SP 2 ,SQL Server 2005 Developer Edition . 为了进一步加快数据采集速度,我们让 Rainbow 在这两台 
机器上持续运行了 9天 (5/3/2009 〜 5/11/2009), 然后将数据库进行合并.我们一共进行了 310次随机采集 ， Peerlnfo 
表共获得以 (Kad ID , userID ， IP ) 为主键的约320万条去重节点信息记录，其中，可进行 TCP 通信并获取了 userlD 
信息的记录有1 166 784条. 
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4.2 Rainbow 采集性能 

本节就 Rainbow 采集器在变量相关取值下进行时间与空间复杂度的理论值与实验值 
对比分析.公式 (6) 中，考虑较坏情况，令 f 2 ocl0 9 fl . 据我们实验观察 p 的取值约为 0.2 .同时，若取 
«=20，”=20000,7；,=58,则可求得7' ； / 1)/ >=8.000032028»85.公式(7)中,若取『=458，《=20000,川=600，可求得7>0 > =1，5308. 
公式 (8) 中:当 Peerlnfo 表小于10万条记录时， f 3 较小大概取值 0.0025 s ; 当 Peerlnfo 表大于300万条记录时，? 3 较 
大大概取值 0.03 s . 若取，7=20000,可求得 7 V „_, eM =50 s ~600 s . 公式⑼中，若取 n =20000， r =4, 可求得 5£«5.26 MB . 

就 310 次随机采集的性能数据对 Rainbow 采集器的收敛性、时间复杂度和空间复杂度进行实验分析，并与 
相应的理论值进行对比.实验结果显示， 310 次随机采集都是收敛的，所以收敛性获证 .3 个模块的实验耗时 T udp , 
7 Vo >，7 V „_, eM 与公式 (6)~ 公式 (8) 的理论取值的对比如图 5 所示.由图可见，实验值和理论值相差不大 ,310 次随机 
采集的 Trop 实验值的算数平均值 》11.78s， 约为理论值的 1.47 倍 .7>„ ■实验值的算数平均值 》2379.41s， 约为理论 
值的 1.55 倍 .r mteDB 实验值的算数平均值 》325.34s， 基本处于理论值的上下界范围之内.此外，经我们实测观察， 
Rainbow 采集器在运行时所占的内存空间在 12MB 左右波动，约为公式 (9) 理论值的 2.28 倍.考虑到采集器在运 
行时会加载一些库从而带来额外内存开销，而且 Rainbow 的总耗内存很小，所以 Rainbow 的空间复杂度是可以 
接受的.总之，实验显示 Rainbow 采集器是收敛的，时空复杂度的实验值和理论值基本处于同一数量级.此外，由 
T UDP jTCpJwn,eDB 理论值和实验值可见，模块 2 ( 节点信息收集模块)的处理时间较长，为主要的瓶颈段.故模块 1 、 
模块 3 的串行操作并不会带来额外的时间开销(如图 4 所示). 
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Fig .5 Rainbow’s performance comparison between experimental and theoretical values 
图 5 Rainbow 性能实验值与理论值对比 


4.3 稳定因子 ( SF ) 计算与分析 

从数据表 Peerlnfo 中抽出3个 标识 : Kad ID , userID , IP ， 并以他们为主键构建新表 KadID _ userID _ IP ， 共获得 
1 166 784条不重复记录，在表 KadID _ userID _ IP 上根据公式 (1) 计算它们及其组合的稳定因子 ( SFKI . 获得 W 计 
算结果及 ID 合适度排名和原因分析见表1.由表1比较 W 值可见， { userlD } 的取值最大，根据定义 2,{ userID } 是 
候选节点标识集合 2 { Kad ro ， US erfD ， IP } _ { 糾中的最佳节点标识. 
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10 -1 10 ° 10 1 10 2 10 3 10 4 
One userlD corresponds to how many P 

(a) {userlD} -P relation 
(a) {userlD } 与尸的关系 


10 _1 10 ° 10 1 10 2 
One P corresponds to how many userlD 

(b) 尸 - {userlD} relation 
(b)P 与 {userlD } 的关系 


Fig .6 Relationship between { userlD } and other candidate peer identifiers P 
图 6 { userlD } 与其他候选节点标识 P 之间的关系 


Table 1 SF value comparison 
表 1 SF 值比较 


Candidate identifier 

SF 

ID fitness rank 

Cause 

{Kad ID} 

1.166 540 

2 

Kad ID can be freely changed, thus {Kad ID} is less stable than {userlD} 

{IP} 

1.012 907 

4 

DHCP (dynamic host configuration protocol) makes IP changes a lot, 
therefore {IP} has a low SF value 

{userlD} 

1.271 760 

1 

Most stable as userlD has public key encryption algorithm and 
credit system to ensure its stability 

{Kad ID,IP} 

1.000 448 

6 

{Kad ID,IP} has a low SF value as it changes a lot 

{userlD,IP} 

1.001 140 

5 

Even if userlD is stable, DHCP makes IP changes frequently 

{Kad ID,userlD} 

1.163 981 

3 

Even if userlD is stable, the instability Kad ID makes {Kad ID,userlD} change 

{Kad ID,userlD,IP} 

1 

7 

Since table KadID_userID_IP is composed of (Kad ID,userID,IP), 
therefore its SF equals to 1 


4.4 候选标识正常度 ( CIN ) 计算与分析 

采用 { userlD } 作为最佳节点标识后，利用公式 (2) 对 CW 值进行了计算，获得结果见表2.计算结果表明 ， CW 

值满足如下关系: C / A^ userID 尸 CW { Kad ID，userID 尸 C /^ V { user iD , IP } = C / A^Kad ID , userlD ， IP }> C / iV{Kad ID }^ CIN { Kad HD ， IP }> C /^ V { ip } 

中， CW | KadlalP } 比 C / Mw 稍大是因为 {Kad ID } 比 { IP } 更稳定.例如，实验数据显示， { userlD } 与其他标识的多对 _ - 
关系中，与 { KadID ， IP } W # S _ -关系只有312个，而与 { IP } 的多对一关系有11 178个，较前者多10 866个. 


Table 2 CIN value 
表 2 CW 值 


Candidate identifier 

CIN value 

Candidate identifier 

CIN value 

{userlD} 

1 

{Kad ID} 

0.869 784 

{Kad ID,userlD} 

1 

{Kad ID,IP} 

0.652 680 

{userlD,IP} 

1 

{IP} 

0.641 180 

{Kad ID,userlD,IP} 

1 




由实验数据可以获得最佳节点标识 { userlD } 与其他 CIN <1 的候选标识 / Kad ID }，{ IP } 或 {Kad ID , IP }) 
的关系，如图 6 所示.图 6( a ) 反映了 { userlD } 与的一对_ - 关系和一对多关系数量，图 6( b ) 反映了 P 与 { userlD } 的 
一对一关系和一对多关系数量(因 { userlD } 与之间的关系复杂， { userlD } 与的一对一关系数量并不等于 P 与 
{ userlD } 的一对-关系数量) . C /7 V 越大,对应的散点图越陡、尾巴越短，表示 { userlD } 与 P 关 系的… •对应关系 
比率越高，即关系越正常.由图可见，图 6( b ) 的 P 与 { userlD } 的一对多关系数量远小于图 6( a ) 的 { userlD } 与 P 的 -- 
对多关系，故可以主要观察图6⑷，得关系正常度排序(从好到差)为: { userID}-{Kad ID } 关系, { userlD}-{Kad 
ID ， IP } 关系， { userID }-{ IP } 关系，这验证了表2的 C / iV 计算值排序结果. 



OfKadlD}-{userlD} 
{IP)-{userlD} 
0-)KadID,IP)-(userlD) 


0 oo 
0 ° 




10 6 10 4 10 2 10° 
jjo Jaquln^: 


6 4 2 0 

o o o o 
QP3sn jo .laqlunz 


4.5 {userID}-{KadID } 关系统计分析 

本节定量分析 Kad ID 别名，主要对 { userlD } 与 {Kad ID } 的复杂关系进行统计分析，以获得 { userlD } 与 {Kad 
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ID } 乙间的相互关系(见表 3). 

1) '对一关系.图6⑷最左上角的圆圈表示 { userlD } 与 { KadID } 的一对_ -关系，有874 650个，占 { userlD } 与 
{Kad ID } 关系的95.33%;图 6( b ) 最左上角的圆圈表示 {Kad ID } 与 { userlD } 的一对一关系，有999 222个，占 {Kad 
ID } 与 { userlD } 关系的99.9%; 

2) '对多关系(包括瞬态和累积_ •对多关系)反映在图 6( a ) 中.实验观察 H ，{ userID } 与 {Kad ID } 有42 806个 
一对多关系，占 { userlD } 与 {Kad ID } 关系的4.67%，说明存在相当比率的一对多 关系； 

3) 多对一关系(包括瞬态和累积多对一关系)反映在图 6( b ) 中.实验观察到， { userlD } 与 {Kad ID } 有987个多 
对一关系，只占 { userlD } 与 {Kad ID } 关系的0.1%，说明多个 { userlD } 对应同一个 {Kad ID } 的情况极少. 

总之，虽然非正常情形的多对一和一对多关系所占总关系数量的比率不高，但是在节点规模以百万计的 
eMule 网络中，这个数目是不容忽略的.例如，图 6( a ) 中有29 660个1对2关系,1对19关系也有31个.表明 eMule 
网络中节点(由 { userlD } 标识)与 {Kad ID } 关系非…•对应性相当显著，反映出 Kad ID 别名问题很严重.同时也 
表明, eMule 网络中的安全隐患(即 Kad ID 可以随意指定)仍然存在，从而方便攻击者进行 eMule 网络攻击，例如 
Sybil 攻击和蒙蔽攻击 (eclipse attack ， 模拟大量恶意节点进行网络分割以进行信息截获与欺骗 f 3 ’ 24] . 


Table 3 { userlD } vs . {Kad ID } relation 
表 3 {1^1'10}与{1^ 1 110}相互关系 


Relation 

Number of {userlD}-{Kad ID} relations 

Ratio (%) 

Number of {Kad ID}-{userlD} relations 

Ratio (%) 

One to one 

874 650 

95.33 

999 222 

99.9 

One to multiple 

42 806 

4.67 

987 

0.1 

Total 

917 456 

100 

1 000 209 

100 


Sybil 攻击的防御方法目前存在集中式和分布式两类，其 中:集 中式防御方法违背了 eMule 网络的分布式特 
性而实用 性差; 分布式防御方法 [2 > 27] 当前仍处于探索阶段，问题还没有获得完美解决.蒙蔽攻击的防御方法 [23 , 24] 
目前较少.考虑到 userlD 不易变性是因为采用了 RSA 公/私钥加密算法的挑战响应机制来防止 userlD 欺骗和冒 
充，是否可以采用同样的方式来解决 Kad ID 可以任意指定的安全隐患，是一个值得深入思考的问题. 

4.6 { userlD } 的应用有效性 

{ userlD } 作为最佳节点标识可以在如下场景下应用: eMule 网络文件源的准确定位; eMule 网络的节点跟踪; 
eMule 网络节点行为分析等.由第 4.3 节 SF 值计算可知， { userlD } 是集合 2 ( KadID ，_ IDJP 1 -{ 糾中最稳定的标识. 

为进一步证明这一点，本节采用 Rainbow 对 eMule 网络节点的共享文件信息进行了为期6天的探测 
(5/24/2009-5/29/2009)，共获得节点拥有的文件条数约550万条，然后分别采用 {Kad ID },{ IP },{ userlD},{Kad ID , 
IP },( userlD , IP},{Kad ID , userID},{Kad ID , userlD , IP } 作为标识对节点所拥有的文件进行了统计，实验结果如图7 
的箱线图所示. 




{apasnQI 3^} 

{dlQIJi} 

{dram} 

{dpi} 


S3S Jo Jsqulnz 


g - {draIJ3sndIPK:H} 


Fig .7 Boxplot of number of files corresponding to different identifiers 

图 7 不同标识对应文件数量箱线图 
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由图7可见, { userlD } 在短期(只有6天)的测量中也能对应最多的文件数量，故采用 { userlD } 作为节点标识 
可以更准确地探测节点所拥有的文件情况.从而证明了 { userlD } 是集合 {Kad ID , userID , IP } 中最稳定(佳)的节点 
标识，同时也证明了稳定因子是一个能够准确度量标识合适性的测度. 

5结束语 

本文主要解决 eMule 网络中的最佳节点标识问题.首先定义了节点标识稳定性测度 一一 稳定因子，并给出 
了节点标识集合中最佳节点标识的形式化 定义; 随后，设计并实现了可采用随机采集方式工作的 eMule 网络节 
点信息采集器 一一 Rainbow ， 并对其收敛性、时间复杂度和空间复杂度进行了 分析; 运用 Rainbow 对真实 eMule 
网络进行一段时间的采集后，我们获得 eMule 网络 标识 : Kad ID ， userID , IP 之间对应关系的去重记录1 166 784 
条，通过稳定因子计算得出 { userlD } 是最佳节点 标识; 之后，对 { userlD } 与 {Kad IDj 的关系进行了统计 分析; 最后， 
对 { userlD } 的应用场景进行了举例说明.本文针对 eMule 网络的主要贡献有:(1)设计实现了一个节点信息采集 
工具—— Rainbow , 并从理论和实验角度证明了 Rainbow 采集算法是一个收敛且时空复杂度不高的 算法; (2) 提 
出了标识的稳定性 测度: 稳定因子用于度量标识的合 适度; (3) 通过稳定因子计算和实验验证得出 { userlD } 是 
eMule 网络的最佳节点标识，为 eMule 网络的研究奠定了基础. 

eMule 网络的研究受到越来越多的关注，更进一步的研究工作可以围绕如何提高 eMule 网络的服务质量展 
开，比如 eMule 网络中粗俗文件的鉴别与过滤、 eMule 网络完全拓扑图的采集与分析. 

致谢 感谢淘宝软件有限公司的龚才春先生，我们从与他的交流讨论中得到许多启发. 
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面向论坛的突发性热点话题快速发现与跟踪 
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(西北工业大学计算机学院，陕西西安， 710129) 

摘要： 面对网络论坛中的海量信息，提出一种基于噪音过滤和话题聚类的突发性热点话题快速发现方法。该方法 
首先对采集到的论坛数据进行预处理，建立以主贴标题为索引的候选话 题集； 然后通过定义的热度和回复加速度 
指标对集合进行多重 过滤； 最后采用本文提出的聚类算法进行话题聚类获取突发性热点话题。研究结果表 明：该 
方法对突发性热点话题发现的精确率、召回率和巧均达到80%以上，且在信息处理效率方面优势 明显； 该方法 
可有效跟踪突发性热点话题，弥补了传统静态方法不能有效跟踪热点话题的不足。 

关 键词： 网络 论坛； 突发性热点话题； 聚类； 回复加速度 
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Bursty topics detection and tracking for web forums 


XU Huijie, CAI Wandong, CHEN Guirong 

(School of Computer Science and Technology, Northwestern Polytechnical University, Xi’an 710129, China) 


Abstract: A fast method for bursty topics detection and tracking was proposed based on the numerous information of 
web forums. Its basic content can be summed up as follows: Firstly, the preprocessed web forums data are generated for 
the topic candidate set. Then multiple filtering is used for the topic candidate by the pre-defined hotness and reply 
acceleration indicators. Finally, bursty topics are detected by using the topic clustering algorithm. The results demonstrate 
that the proposed method can get higher precision, recall and F\ in bursty topics detection. Additionally, it can effectively 
track the bursty topics, which makes up for the shortcomings of traditional static methods. 

Key words: web forum; bursty topic; clustering; reply acceleration 


网络论坛突发性热点话题是指网络论坛中由突发 
性公共事件引起的、在出现之前难以预知并且传播周 
期较短、对社会舆论影响较大的话题。当网络论坛中 
一些指向性强、易引起网民共鸣的突发性热点话题出 
现时，往往会引发重大舆情危机。如何准确、高效地 
发现与跟踪突发性热点话题，对网络舆情的识别与监 
控具有重要的现实意义。关于突发性热点话题的发现， 
目前国内外研究者主要采用语义分析 [1_5] 和复杂网络 
分析 [M()] 2 种技术途径，后来的很多方法都是这2种方 


法的进一步扩展。基于语义分析和复杂网络分析的方 
法虽然在一定程度上可以发现某一时间周期内的热点 
话题，但采用上述方法存在以下问题： （ 1) 基于语义 
分析的热点话题发现主要采用文本聚类、分类的方法， 
面对网络论坛的海量数据，数据处理量大、效率低。 
同时由于网络论坛内容与常规的语料相比更加口语化 
和非正规化，一般的语义分析技术难以满足识别精度 
的 要求； （ 2) 基于复杂网络的热点话题发现以简单有 
效的帖子关系构建网络，通过分析其网络特性提取热 
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侯选 

话题集 




Time 

图 2网络论坛中话题的层次视图 
Fig. 2 Topic level view 


2 突发性热点话题发现 

网络论坛突发性热点话题快速发现与跟踪包括建 
立候选话题集、论坛数据噪音过滤、突发性热点话题 
发现、突发性热点话题跟踪4个步骤。建立候选话题 
集是将采集到的论坛数据建立以主贴标题为索引的话 
题集； 噪音过滤是对获取到的候选话题集进行去噪处 
理，移除掉热度较低的主贴和不具有时间突发性的主 
贴，通过噪音过滤，可以过滤掉论坛中大部分不会演 
变成热点话题的帖子。对剩余的帖子，通过分词工具 
提取主帖标题中包含的主题词并采用聚类算法对主贴 
进行合并，进而抽取出突发性热点 话题； 针对发现的 
突发性热点话题的时间序列，绘制其对应的回帖加速 
度变化曲线进行跟踪。如图3所示为突发性热点话题 
快速发现与跟踪的整个流程。 

2.1 建立候选话题集 

研究发现，网络论坛中主贴的标题一般直接代表 
了用户讨论的主题 [12_13] 。根据2011年中国互联网舆 
情分析报告中列出的前10大网络热点事件 [14] ，本文 
以最具影响力的全球华人论坛天涯社区为例，检索出 
社区中对应10大网络热点事件的回复数最大的主贴， 
统计发现其主贴标题即能概括事件主题的占总统计量 
的80%以上。本文的突发性热点话题发现方法很好地 


突发性 

热土话 

题跟踪 



点话题。但以往该方面的研究往往以网络特性参数数 
量上的累积作为判断依据，而忽略了网络的时变特性。 
例如，具有高入度值的帖子因不具备时间上的突发性 
则难以成为突发性热点话题。针对以上问题与不足， 
本文提出一种基于噪音过滤和话题聚类的热点话题快 
速发现方法。该方法充分考虑了网络论坛结构、话题 
特征以及突发性热点话题所具备的高关注度、时间突 
发特性，采用逐步求精的策略，通过噪音过滤、分词、 
聚类实现突发性热点话题的发现。 

1网络论坛结构和话题特征 

网络论坛作为网络舆情传播的重要途径，是一种 
为广大用户提供张贴特定或一般内容以及进行讨论的 
Web 应用。论坛由很多的版块 (board) 构成，组织形式 
是主题 (thread) 。论坛中用户间的讨论首先是以第一个 
作者发出一个主贴 (entry post), 该主贴有一个唯一的 
标题 (title) 和入口 (entry), 然后由其他用户(可以是第一 
个作者)围绕这个主贴通过发1个或多个包含相应内 
容的回复帖 (post) 展开的。如图1所示为网络论坛主题 
构成图。网络论坛的话题 (topic) 是由1个或多个讨论类 
似内容的主题集合，如图2所示为话题的层次视图 [11] 。 


Thread 


图 1网络论坛主题构成图 

Fig. 1 Thread structure in web forum 



话题聚类 


论坛文本流 


图 3突发性热点话题快速发现与跟踪流程 
Fig. 3 Flow diagram of detection and tracking for bursty topics 
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利用了这一特征，在数据采集之初仅采集论坛中各主 
贴的标题并建立以主帖标题为索引的话题集。 

2.2 噪音过滤 

网络论坛热点话题的形成分内容驱动和形式驱动 
2种不同的方式 [15] 。内容驱动是通过发表经特别制作 
的内容丰富的帖子，吸引网民大量浏览和回复该帖子， 
形成 热贴； 形式驱动是网络推动者通过调动大量“僵尸 
机器”及招募大量的网络评论员发表大量有关事件的 
帖子，将该事件强行推入公众视野，捧成热点，进而 
吸引网民大量浏览和回复该帖子而形成热点话题。这 
2种驱动形式启示我们，可以从帖子的浏览数、回复 
数进行热点话题的发现。帖子热度评分公式如下 [16] : 

,r(x,)/5(x,) 


avgr ( A ) di \ gb ( X ) 


■ r ~ 


max ( X ) 


(i) 

式中： ct，A y 为加 权值；咖)为主贴4的回复数 ； 啦.) 
为主贴 x ,. 的点击数； avgr ( Jt ) 为所有帖子 X 的平均回复 
数； avgZKJQ 为所有帖子 X 的平均点 击数； 为所 
有帖子中最大回复数与点击数之比。 

一般而言，论坛用户要点击某个帖子才可以对它 
进行回复，所以，帖子点击数一般要大于回复数。以 
rfc .)/ ZKx ,.) 来描述用户围绕主贴; c ,. 讨论的激烈程度，比 
值越大，表明该帖子相对应的话题受关注度越高。在 
确定式 (1) 中3个指标相对于彼此的重要程度之前，加 
权值 a ， #和 y 是未知的。本文采用 AHP 法求解，根 
据 Saat /‘ l -9” 标度法，构造判断矩 阵为： 



~ A l / A l A l / A 2 A l / A 3 " 


"l 3 1/5" 


R = 

A 2 / A l A 2 / A 2 A 2 / A 3 

= 

1/3 1 1/6 

(2) 


/ A .^ / A ，2 / 


5 6 1 



分别计算3行元素的几何平均值后作归一化处 
理，并计算最后权重，计算公 式为： 


/=1，2，."，《 

式中： 呎为 权重； 呎'为判断矩阵中每行元素的几何平 
均值。则0(，彡和 y 的计算结 果为： a =0.194 7； p = 
0.088 1； y =0.717 2。 

式 (1) 虽然可以快速发现热度排名靠前的帖子，但 
它反映的是帖子回复数和点击数在数量上的累积，不 
能体现贴子热度随时间的变化特性。根据演化理论， 
帖子的生命周期也经历突发、成长、衰退、消亡4个 
阶段 [17] 。处于衰退阶段的帖子即使其热度很高，已不 
可能演变成具有时间突发性的热点话题。为避免这种 
评价指标的不足，受文献 [18] 通过度加速度来描述在 


线社交网络中某一突发过程链接创建率的启发，本文 
引入回复加速度的概念来识别和量化帖子热度随时间 
的变化 特性： 


aiXiY 


r(XjY -2r(x, +r(x i )^ t ~ 2At ^ 
{ AO 2 


(4) 


式中： aiXij 为主贴 x ,. 的回复加 速度； r ( x ,. y 为主贴 
在 时间？ 的回 复数； A ? 为介于 rfc . y 之间的时间粒度。 
同时，为了有效标示帖子生命周期的不同阶段，定义 
状态函数 S ( Xi )'： 7?—>{ acc ， growth ， dec , death } 进行描述： 

acc , e (^,+ co ) 
growth , a ( x ,) ( e [6» 2 ,6»!] 

S(x,+) =<j , (5) 

dec , a ( x t y e {- co , d 2 ) 

death , c ( x,) f = 0 

式中： acc 和 dec 对应于帖子生命周期的突发和衰退阶 
段，在这2个阶段，帖子的回复量急剧攀升 ( fl ( x ,.)»0) 
或强烈衰减 growth 对应于帖子生命周期的 
成长阶段，在该阶段帖子每天的回复数几乎是恒定的 
(或在某一非零常量周围振 荡)； deafc 对应于帖子生命 
周期的消亡阶段，在该阶段帖子回复数为0;久和込 
为预先设定的 阈值； cfc . y 为常量0。 

通过对帖子的热度度量和热度随时间变化特性的 
识别，不仅可以有效地过滤掉热度较低或已处于衰退 
和消亡阶段的帖子，保留处于加速或成长阶段的贴子， 
还可以对回复加速度急剧增加的帖子给予足够的关 
注，而这些帖子往往容易发展成为突发性热点话题。 
由去噪后保留下来的帖子建立主题集合&={&， 

hi, …， h m }o 

2.3 分词 

如图2所示，论坛中若干个主题讨论的可能是现 
实生活中的同一话题。在对主题进行有效聚类之前， 
需要对主题进行分词，以抽取其中反映热点话题主体 
特征的主题词。与英文标题不同，中文标题是连续的， 
需要采用专业的中文分词工具进行处理。本文采用中 
科院 ICTCIAS(Institute of Computing Technology ， 
Chinese Lexical Analysis System ) 分词系统进行分词， 
如“朝鲜今日宣布正计划进行第三次核试验”这一标 
题，通过分词可以得到如下分词 结果： 朝鲜 / n 今日 /t 
宣布 / v 正 / d 计划 / v 进行 / v 第三 / m 次 / q 核试验 / n ， 抽取 
其中的名词和动词，并删除重用词，可以得到集合{朝 
鲜，宣布，计划，进行，核试验}。 

实际操作中，对集合&中的每一元素私.分别进行 
分词处理，并建立集合同时，考 
虑到许多主题讨论的话题是现实中的新事件，势必其 



第 8 期 


徐会杰 ，等： 面向论坛的突发性热点话题快速发现与跟踪 


2651 


中会包含许多 ICTCIAS 词库没有的新词汇，如“房妹”， 
“房姐”等，在分词之前需要手动添加到 ICTCIAS 词库 
中。 

2.4 突发性热点话题发现 

由于论坛中的多个主题讨论的可能是同一个热点 
话题，所以，关于同一话题的集合中会包含有相同的 
主题词。例如集合， A 2 ，/^，分词以后为 
\ - {term x , term 2 ,term 3 , term 4 }, h 2 = {term 2 ,term 3 } ， 
h x = { fer % ，纪 rm 2 , 纪 rm 3 } 。定义 2 个集合间的 Jaccard 
系数作为它们的相似度： 

I h t f| h ： I 

sim (/?- ,h：) = - (6) 

1 J \lhDhjl 

式中： 化， \ e 5 V 。 合并多个 A , 的算法 如下： 

输入： & =沐為 和预设阈值… 

输出 ：热点 话题集合丑={丑汍 )} 。 

Step 1：初始化主题集合知， 分为 m 个主题&， 
h 2 , h m0 

Step 2： 对于 hy h 2 ， … ， h m ， 选取 max |/^| 并且有 
sim ( msLx \ hi \, hj)^rjy 加入到热点话题集合 H(hi)={h h hj} 
中，否则转入 Step 3。 

Step 3： SfSrHQii )， 迭代计算转入 Step 2,从和 
中再次选择最大 max ^ l ， 直到集合* SV 为空。 

3实验结果分析 

3.1 实验数据 

为了分析所提出的突发性热点话题发现与跟踪方 
法的效果，本文采用文献 [19] 的 Web 信息采集系统抓取 
的网易新闻论坛 ( http :// bbs . news . 163. com )2011-03-01 
- 2011-05-01 间的数据集。数据的详细描述如表1 
所示。 

我们事先对该数据集中的4 248个帖子进行人工 


表 1实验数据集描述 

Table 1 Description of experimental data set 


类别 

数量 

主贴数 

4 248 

主贴 ID 

1 562 

主贴平均回复数 / 次 

12 

主贴平均点击数/次 

1 811 

最大回复数/次 

550 

最小点击数/次 

1 


标注，这些帖子共包含2 716个话题，并且有超过2 000 
个帖子是孤立的，而突发性热点话题往往包含多个帖 
子。这说明在网络论坛中需要对突发话题进行归纳与 
总结，以方便用户及时全面了解发生的突发事件以及 
与这些事件相关的事件，从而帮助用户节约大量的浏 
览时间，同时提高浏览质量。 

3.2 实验结果分析 

根据表1中的统计结果和式(1)，对数据集中的 
4248个主贴进行热度评分，得到如图4所示的主贴热 
度时间分布图，对应图中右上方区域即是所需要的热 
帖，但这只是一个感性的认识，为了快速发现热帖， 
需要通过量化手段对该图进行有效区域划分。 



图 4主贴热度的时间分布图 
Fig . 4 Distribution of entry posts in time 

主贴要最终演变成突发性热点话题，其对应的回 
帖数的线性增长是不够的，一定要有“指数”级别的増 
长，即回帖数与突发性热点话题的关系是指数关系而 
非线性关系。所以，取主贴回复数与主贴平均回复数 
比值的对数即 lg ( Xx ,. yavgr ( JO ) 作为横坐标，得到如图5 
所示的主贴热度分布图。 

利用阈值 F h(rtness >0.4318 (主贴平均热度值）， 



]g(r(x,)/avgr(^)) 

图 5主贴热度在 lg(/*(x ; )/avgr(JO) 上的分布 


Fig . 5 Distribution of entry posts in lg(r(x/)/avgr(^)) 









图 8 “ 药家鑫”事件突发性热点话题发现与跟踪 

Fig . 8 Detection and tracking for “YAO Jiaxin” event 

4 结论 

( l ) 在网络论坛突发性热点话题研究中，提出了 
一种能快速发现并跟踪突发性热点话题的方法。该方 


阈值 

1— 召回率； 2 一精确率； 3— F\ 

图 6 不同阈值下的哭发性热帖发现效果 

Fig . 6 Detection for bursty hot posts under different 
thresholds 

从图 6 可以看 出：当 的 =30 时，召回率、精确率 
以及八均较高。所以在计算回复加速度时，取阈值 
6=30。依据式 (4) 和 (5) 统计上述406个热帖在各时间 
节点上的回复加速度，并移除不在预定阈值范围内的 
热帖。通过主贴回复加速度阈值的选择，确定具有突 
发性特征的主贴有11个。这表明通过对候选话题集进 
行噪音过滤以后，原本需要处理的4 248个帖子，现 
在只需要处理11个帖子。这种过滤方法不仅减小了发 
现算法的复杂度，同时也提高了发现算法的准确率。 
对应的11个主贴的回复加速度变化情况如图7所示。 

对上述11个主贴标题进行分词并采用 2.3 节的聚 
类算法进行标题合并，得到的结果如表2所示。 

在突发性热点话题跟踪方面，以“药家蠢”突发性 
热点话题为例，统计6个对应主贴在各个时间点上的 
回复加速度，计算其平均值，绘制如图8所示的平均 
回复加速度变化曲线。通过与实际事件的发展进程进 
行比对，表明其跟踪效果与实际事件发展基本吻合。 


lg ( r ( x ,.)/ avgr ( X )) > 1来发现热帖，结果如图5所示。 
其中在2条虚线构成的4个区间中，右上角的区间即 
是需要的热帖。通过阈值选择的热帖数目有406个。 

在热帖突发性特征的判断上，为了确定式 (5) 的临 
界阈值，以这一时间区间发生的“药家蠢”事件为例， 
从上述406个热帖中提取出与此主题相关的具有突发 
性特征的主贴共计6个。由于“药家蠢”事件本身是该 
时间区间的热点事件，所以，以此作为训练样本具有 
较高的可信度。实验中，令 Ai = l 并随机向样本中添加 
7个与此主题无关的突发性热帖，根据不同的阈值进 
行7组实验。实验结果如图6所示。 

1201- 


8—8 ； 9—9 ； 10—10 ； 11—11 
图 7 突发性热帖加速度时间变化图 
Fig . 7 Reply acceleration of hot posts changing over time 


表 2 突发性热点话题 

Table 2 Bursty topics 


突发性热点话题 

起始日期 

终止日期 

中石油给日本地震捐款 

2011-03-24 

2011-04-21 

药家鑫被判死刑 

2011-03-31 

2011-04-25 

新浪微博封杀一剑传媒 

2011-04-01 

2011-04-19 

副乡长抢夺民企 

2011-03-12 

2011-04-18 

蹲监 “ 被死亡”，千万资产 

被乡领导贱卖据为已有 

2011-03-13 

2011-04-19 


50 


药家鑫故意杀人案在西安市中级法院开庭审理 

、各大媒体、门户网站相继就药赛鑫案推_.出专家访谈 
j / 临近 4/ j 22 f 1* 判结果 一 A t 事件 f •息 
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法主要有以下 特点： 与以往的突发性热点话题发现与 
跟踪方法相比，该方法基于逐步求精的策略，在运行 
具体的发现与跟踪算法之前，首先对论坛数据进行过 
滤以移除大量与主题无关的 数据； 为了提高发现精度 
并描述帖子的时变特性，将演化理论引入发现方 法中； 
引入帖子回复加速度的概念来识别和量化帖子热度随 
时间的变化特性。 

该方法在不进行语义分析和复杂网络构建的 
条件下，可以对网络论坛中的突发性热点话题进行快 
速识别和有效跟踪。 
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基于 BBS 的热点话题发现与态势预测技术的研堯 
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(哈尔滨工业大学计算机科学与技术学院，哈尔滨 150001) 


摘要: 网络论坛 BBS 是中国网民一个重要的信息传播渠道，而其中的热点话题自然就成为舆情调控和效果评估的首要目标 ^ 
提出一个快速有效的用于挖掘网络论坛中热点话题并分析预测其发展态势的方法，利用统计的方法为同一版面下帖子的热度打分 
并排序，并使用相关的数学模型对热度较高的帖子的发展态势进行分析与预测。通过实验验证了该模型的可行性和有效性，为进一 
歩研究复杂网络中热点话题的演化奠定了基础。 
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Research on the Technology of Hot Topics Foundation and Trend Forecast in BBS 

LU Junjia，ZHANG Hongli, ZHANG Yue 

(School of Computer Science & Technology , Harbin Institute of Technology , Harbin 150001, China ) 

Abstract: BBS is an important channel of information dissemination among the Chinese Internet users. So the hot topics will naturally 

become the primary goal of public opinion regulation and effects assessment.This paper presents a fast and effective method for mining a 
hot topic and analyzing, forecasting its development trend in online forums. By making use of statistical methods for ranking the heat rate of 
posts in the same topic, the paper uses the mathematical model to analyze and forecast the development trend of the post owning high 
heatrate.Then feasibility and effectiveness of the model is verified by experiments so that this research may lay the foundation for the further 
study of the evolution of the hot topics in complex networks. 

Key words: BBS; Hot Topics; Public Opinion Regulation 


o 引言： 

在当今信息大爆炸的时代，互联网已经成为人们工作、 
学习和生活中获取新闻、知识、娱乐等信息必不可少的途 
径，在互联网各式各样的信息传播渠道中，网络论坛 BBS 
是中国网民的一个重要信息传播平台。以天涯论坛为例，每 
天都有数以万计的网民在论坛上发表自己感兴趣的帖子或 
者回复别人的帖子以表达自己的见解和主张。这种信息传 
递方式造成的影响是宽泛而又深远的。譬如2010年10月 
沸沸扬扬的“小月月”事件起源于一个网民在天涯论坛上 
发布的一篇名为《感谢这样一个极品的朋友给我带来这样 
一个悲情的国庆》的帖子。该帖子自发布以后在短短的几 
天内就吸引了数十万次的浏览，引发了数万条的回复。同 
时，“小月月”这一名字几乎红遍大江南北，甚至成为某些 
大学生的“口头禅”。同样，在当月发生的“我爸是李刚”事 
件也变得家喻户晓，很多 BBS 中关于这个话题的帖子也是 
炒翻了天,社会各界人士纷纷就“我爸是李刚”事件发表看 
法并参与到激烈的讨论中，导致这些帖子的热度超乎寻常， 
持续很久，而且至今尚未彻底平息。此外，如果社会有新的 
举措出台，在 BBS 相关的版面里很快就有大量的网民对新 
举措的利弊投以关注并加以分析评价，使人们在第一时间 
内对此举措有一个比较全面的认识与了解。所以，网络论坛 


BBS 这个虚拟的平台在互联网这个大家庭中占据着举足轻 
重的地位。 

然而，任何事物都不是绝对的,应该用辩证的眼光来看 
待网络论坛这把双刃剑。信息化的出现，也会有这样或那样 
的问题甚至矛盾，关键是如何解决问题和如何处理这些矛 
盾。既要维持网络论坛平台上的言论自由，同样也要使网络 
论坛言论自由不能超越法律的底线。借助舆论的压力，可以 
使不良、不法行为得以及时地纠正，给人们营造一个健康和 
谐的网络 环境。 假如把网络论坛当作散布消极言论甚至违 
法言论的空间，将会给社会带来不利影响甚至造成严重危 
害 【1】 。由此可见,应该通过一定的手段来发现和纠正网络论 
坛中这些不良和不合法的行为，这就需要相关的舆情分析 
调控技术。 

互联网信息的传播以及舆情核心元素主要包括热点、 
焦点、敏点、频点等方面，其中热点是最基本的判断依据％ 
热点是指过去某一时间段内，被相对更加关注或集中关注 
的信息点。上文中的“小月月”话题就是一个热点。更具体 
地说,热点问题就是人们所关心的，与人们现实生活和切身 
利益完全贴近的，对社会造成广泛影响的一类问题，通常反 
映了社会成员对该类问题的关注程度。社会热点问题常常 
由于涉及面广、化解难度大、后果严重等特点而导致社会运 
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行风险度增高，甚至影响社会稳定，危及和谐社会的 构建％ 
所以，在舆情调控中，极其有必要对这一类问题进行跟踪、 
疏导和调控，只有这样，才能更好地维护社会的公平和正 
义。研究网络中热点问题的发现及其态势预测具有一定的 
学术意义和实用价值。 

1相关研究现状 

目前，基于 BBS 的数据挖掘综合 Web 应用挖掘、话题 
检测与跟踪 TDT (Topic Detection and Tracking ) ，以及社 
会科学领域的理论与技术，分析 BBS 上的话题和社区结 
构、实现新闻传播与舆论导向、深入市场营销和社会学领域 
的研究 [41 。根据对 BBS 进行数据挖掘需求的不同，可以归结 
为两个 方面： 热点话题的发现与跟踪以及虚拟社区结构的 
发现与分析。随着 BBS 的不断发展壮大，这两个方面已经 
成为基于 BBS 数据挖掘研究方向的核心。 

网络论坛的数据挖掘包括两个方面的 技术： 一是 BBS 
数据获取 技术; 二是 BBS 数据分析技术。对于后者的研究 
居多。总地来说，国外对 BBS 数据挖掘的研究工作起步不 
久，获得了一些研究 成果； 国内则刚刚起步，不论是从理论 
的研究上还是技术的实现上均有待于改进。 

在开放的网络论坛 BBS 中，任何网民都可以超越时间 
和空间的限制，并且可能对某个群体产生比预期还快还大 
的影响' 原因是在虚拟的世界中，个体间的距离已经不再 
是地理上的距离,而是心理上的距离。心理距离一般可以通 
过 BBS 话题参与者的“影响力”来量化。2002年，日本东京 
大学的 Naohiro Matsumura , Yukio Osama 等人提出 了影响 
力传播模型 IDM (Influence Diffusion Model )。 这个模型着 
眼于用户间的交互模式，通过分析帖子内容或者用户间的 
影响力传递来发现 BBS 中有影响力的人物或者热点的话 
题。在此模型的基础上， I^aohiro Matsumura 等人又进一步研 
究了 BBS 上舆论领袖挖掘的方法。微软的研究人员对新闻 
类网站中的新闻组结构进行了深入的研究，发现新闻组中 
的 cross - post 形成的网络是一■个小世界网络 （ small - world - 
net ) , 就此提出 了基于 cross-post 模型的聚类算法。 这个算 
法无论从结果的质量还是性能上均优于语义聚类的方法 【6 >。 
国内对于网络论坛 BBS 的研究多是从舆论引导、社会学、 
语言学、心理学的角度出发，而以技术作为视角的 BBS 数 
据挖掘的研究较少。事实上，几乎所有的 BBS 网站都对帖 
子记录了一些基本的统计数据，如果将这些信息加以数学 
的定量分析方式，就会挖掘出一些重要的信息。 

关于预测技术的研究，1982年，邓聚龙提出了灰色系 
统预测的概念 p ’ 81 - 1985年, Rumelhart 提出 BP 预测方法，解 
决了多层网络隐单元连接权学习的问题，1960年至今，关 
于马尔可夫的预测应用大量地涌现。但是，对于 BBS 中热 
点话题热度走势的分析预测研究甚少，一些网站往往通过 
人工方式观察话题的热度走势以评估是否需要使用调控措 
施，这样既费时又费力，取得效果也不甚理想。所以，设计一 
个能够自动分析话题在未来一段时间内走势的算法变得尤 
为重要。 


针对上述问题，本文提出一个快速有效的用于挖掘网 
络论坛 BBS 中热点话题并分析预测其发展态势的方法，利 
用统计的方法为同一版面下帖子的热度打分并排序，并使 
用相关的数学模型对热度较高的帖子的发展态势进行分析 
与预测。通过实验验证了该模型的可行性和有效性，为进一 
步研究复杂网络中热点话题的演化奠定了 基础。 

2相关方法原理 
2.1 数据收集 

天涯社区，创办于1999年3月。自创立以来，以其开 
放、包容、充满人文关怀的特色受到了国内乃至全球华人网 
民的推崇。经过十年的发展，天涯社区己经发展成为以论 
坛、部落、博客为基础交流方式，综合提供个人空间、相册、 
音乐盒子、分类信息、站内消息、虚拟商店、来吧、问答、企业 
品牌家园等一系列功能服务，并以人文情感为核心的综合 
性虚拟社区和大型网络社交平台。其中，天涯论坛在国内有 
着很大的舆论影响力。所以，以天涯论坛作为实例，提出一 
个快速有效的挖掘天涯论坛中热点话题帖以及预测其发展 
态势的方法。 

文中，使用网络爬虫抓取了天涯论坛中娱乐八卦版面 
从2010年2月开始到2010年12月为止共18 753个帖 
子。其中每个帖子的格式大致 包括: 帖子标题、所属版面、访 
问数，回复数、作者、发表日期、帖子内容和评论回复等字 
段。在这些属性中，主要关心帖子的访问数、回复数两个字 
段，将其作为热度分析的依据。 

2.2 数据的分析 

这里为了简化问题，将每个帖子的访问数和回复数提 
取出来，构成二元组（访问数，回复数）。所以，第 i 篇帖子 
就可以用二元组 (^ yi ) 来描述。然后将所抓到的每个帖子 
对应的二元组映射到平面直角坐标系中，如图1所示。 

在图1中，横轴表示访问数，纵轴表示回复数。对图1 
分析发现，访问数与回复数多数集中于区间 [*1 0~2 000; yl 
0~50]这个矩形块中。随着访问数和回复数的不断增大，落 
在图中对应部分的点的数量也在不断减少。可见，这个版面 
中的热度帖在全部帖子中占有的比例较少。图中越接近右 
上方的点对应的帖子越是应该给予特别关注的。一般来说， 
对于 BBS 的同一个版面下的所有帖子而言，访问数和回复 
数的分布存在如下三种 情况： 

(1) 访问数 很少。 这种帖子的一个特点是主题没有引 
起网民的兴趣，没有得到关注，只有很少人浏览。将其称之 
为“冷帖”。分析这种帖子是没有意义的。 

(2) 访问数很大但是回复数很少，对应于图1右下方 
的区域。由于这种情况的存在，不能单纯用访问数的多少来 
评价一个帖子是否为热点帖子。一篇帖子可能有很大的访 
问数，但是却只有极少数的回复，这种情况表明这篇帖子的 
主题可能比较吸引人，引来了大量网民的访问，但是这些浏 
览者往往仅是出于兴趣进来看看，了解个大概而已，没有或 
者只引发少量的讨论，在此将这种帖子称为“伪热点帖”。 

(3) 访问数很大而且回复数很大，对应于图1右上方 
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的区域。这种帖子是需要的“热点帖”，一般具有回复密度 
髙，持续时间长等特点。换句话说，这种帖子已经引起了大 
量网民的关注和讨论，话题参与者集思广益,纷纷提出了自 
己的观点和看法，往往可以延伸到很多其它的社会问题。正 
因如此，有很多不良或不法的言论就会借机滋生出来。如不 
加以扼制,可能会对社会造成不良的影响。輿情调控要实现 
因地制宜，有的放矢，所以，就需要对这种“热点帖”进行重 
点和有力度的调控。 

那么具体应该通过什么标准来量化一个帖子的热度 
呢？下面给出关于帖子热度的计算方法。 

2.3 帖子打分方法以及结果 

文中，可以将访问数和回复数看成两个随机变量。据此 
推理，访问数多的贴子很可能回复数也多（访问数少，回复 
数多的情况一般是不成立的 ） ^ 经过对这 18 753 个元组的 
两列属性计算皮尔逊积矩系数，得到 \ y =0.5 ,说明两个变 
量具有一定的相关性。另一个重要因素一回复数与访问数 
的比值，反映出该帖子能否引起人们对帖主话题的争论。该 
比值越高，说明话题的争论程度越高，应该投入更多的精力 
对这样的话题进行跟踪及调控。当然，访问数也要足够高， 
否则仅凭这个比值是没有意义的。比如分析一个访问数为 
2,回复数是1的帖子就是没有价值的。 

下面给出评价帖子价值的打分 公式： 

A 

S<Pi)=^i - %~1~ + Cj2 - yi T V + (J 3 —— f—Y- 

average ix ) average \ y ) max (. a J 
其中 ， S (Pi) 代表第 i 篇帖子的热度得分 ; average (*) 
表示所有帖子访问数的 均值 ; oarage ( y ) 表示所有帖子回 
复数的均值 ; max ( a ) 表示所有元组回复数与访问数的最 


大 比值； 4,(0 2, 0) 3 为权重因子。因为回复数更能体现出话 
题争论程度的高低，所以通常令当仅用访问数和回 
复数这两个指标难以区分帖子的热度得分时,可以考虑第三 

Zl 

个因 素:用 回复数的比例来进行微调。由于0<—^^<1, 

max ( a ) 

故将设置得大一些。经过对娱乐八卦版面特点的分析与 
测试，做出如下初始设置 ： w , = 0.1, CO 2 = 0.2, o 3 = 0.8。由 
于不同版面讨论的主题特点不同，权重因子的设置会有所 
差别，具体可以通过机器学习的方法进行训练。 

在选定的数据集上测试该方案,得到表1的结果。 


表1娱乐八卦版面帖子打分结果 


访问数 

回复数 

热度得分 

帖子标题 

25 608 

2 640 

28.27 

是我活该？！更是中国社会 
莫大的悲哀！ ！！ 

67 758 

2 626 

30.81 

局长四千万家产是怎么 
“ 敛 ” 成的？ 

34 799 

3 134 

33.65 

昌平法院人为、恶意、拖延 

88 979 

3 574 

51.67 

为了维护自己的合法权 
益，我拿起法律武器 

27 874 

5 030 

68.40 

杭州惊现 “ 东阳版”吴英 
诈骗案！ 

29 062 

7 894 

81.25 

妻子擅自动用孩子教育基 
金，气得想离婚！ 


这样，就可以选取排名靠前的 7 V 个帖子进行下一步的 
分析。虽然研究的最终目的是要从一个版面的所有帖子中 
提取到较有价偉的热度帖，但是从其中也还可以挖掘出其 
它比较有用的信息。如这些帖子的发布者极有可能在这个 
版面中扮演着舆论领袖的角色，其发布的内容具有很强的 
影响力以及舆论的导向性％同时，也可以对这些话题中的 
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参与者进行意见社区的划分，观察帖子中社区演化趋势等 
诸多问题。 

3发展趋势分析预测 

3.1 预处理数据 

基于上文的结果，取排名第一的帖子《妻子擅自动用孩 
子教育基金,气得想离婚！》继续进行分析。这篇文章是天 


涯社区一个昵称为“凭什么动用钱”的网民于2010年8月 
17日在《娱乐八卦》版面发表的一篇帖子。截至2010年10 
月14日，共有29 062次访问，7 894次回复，如图2所示。 
图2是2012年3月29日抓取的，故与刚才提到的点击数 
和回复数不一致，但这不会影响文中的分析方法。在接下来 
的研究中，要分析这篇帖子生命周期内的走势并且预测其 
在未来一定的时间内会如何发展。 
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图2主帖内容 


对这篇帖子的 HTML 进行文本分析，从中提取出发表 
日期，以及最后一条回复的时间。后者减去前者就是这篇帖 
子截至抓取时的持续时间。按照提出的计算方法，这个差值 
为58,说明这篇帖子截至抓取时共持续了 58天。在此，为 
每一天划分一个槽,里面存储该天这篇帖子获得的回复数。 


在计算机程序设计中，用数组这个数据结构即可实现此种 
需求。随后，可将数组下标作为横坐标的刻度，表示距离主 
发帖时间的天数，将数组元素的值作为点的纵坐标，表示当 
天获得的回复数。这样,在平面直角坐标系下就得到了很多 
离散的点，如图3所示。 
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图 3 随时间变化的日回复量图 


3.2 数学模型的选用及评价 

从图3中可以直观地看出，这篇帖子的热度己经趋于 
下降并平缓了，即将“沉没”。由于起初并不知道应该使用 
什么曲线来进行拟合，而髙斯数学模型对一般曲线具有较 
好的拟合效果且高斯函数的导函数存在，因而适用于后 


续的态势预测模型。高斯模型具有如下的一种 形式： 
y ( x ) = axe 

使用高斯函数拟合经过这些离散点的曲线，得到如图 
4所示的结果。 
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经过推导，求得参数的 值为: a =3 218 (2 849,3 586)， 
6=13.92 (12.99, 14.85) ,c =9.984 (8.167, 11.35)。括号中 
的值是其 0.95 的置信区间。代入高斯模型，得 到： 





下面列出拟合效果的评价 指标： 

( 1 ) 55£'=1.548 e +07 o SSE 为误差项平方和，反映每个样 
本各观测值的离散状况，又称为组内平方和或残差平方和。 

(2) fl - jgure =0_833 9 。 /?-jgMre 是拟合系数，值越大， 
拟合度越好。 

(3) RMSE = 525 . 7 . RMSE 为均方根误差，可以作为衡量 
测量精度的一种数值指标。 

对这些指标进行分析后，认为拟合的效果是比较理想 
的。该曲线能够反映出话题热度的发展态势。 

3.3 分析预测方法 

接下来，对 y =/( ai ) 关于自变量*求导，得 〆 （*)。令 
，(*) =0,求出最大的极值点，设其 为&。 如果满足以下两 
种情况之一，则认为该话题在未来一定时间内很有可能变 
得 活跃： 

C 1 ) y=f ix ) 没有极值点，且 3 a >0, 使得 〆 (*) > 0。 

(2) 若使> 0 o 

当条件 （1) 成立时，说明广 （*) > 0,即 y (*) 单调性 
递增，表示话题活跃度 上升, •条件 （2) 成立时，说明当到达 
后于％ 的某 时刻* 时，， U )>0, y (*) 开始单调递增，同样 
可以说明话题热度正处于上升的状态。 

如果存在点，使得，（*„) = 0,说明是热度走势 
中的一个转 折点。 此时，找出最大的使得， (*) = 0成立 
的点 。考 察满足々>*„«<的:* t ， 如果 /(*,) < 0,说明该帖 
子热度正处于下降的状态；相反地，如果， Gr ,) > 0,说明 
热度正处于上升的状态。 

此例中令， U ) = 0,求得而且取;有 
y ^ U ) < 0 o 于是可以断定这篇帖子的热度正在 下降。 

4结束语 

随着 Web 2.0 时代的到来，互联网日渐成为信息产生和 


传播的主要场所。为了加强对互联网的管理和监控,互联网 
舆情信息的汇集整理与分析成为目前各级政府部门亟待解 
决的问题。网络论坛 BBS 的出现,极大地改变了人们的网络 
生活习惯，网络论坛迅速成为人们发表观点，交换意见的虚 
拟平台。所以加强舆情管理与监控的重要任务之一就是对网 
络论坛进行分析与调控。帖子是组成网络论坛的元细胞，是 
信息传播的根源，唯有对热点话题进行很好的跟踪与调控, 
才能使舆情控管做到有的放矢，获得事半功倍的效果。本文 
提出了一种基于 BBS 的快速且有效的热点话题发现方法和 
对帖子生命周期内演化态势进行分析和预测的方法，旨在为 
后面的调控工作做好铺垫工作，打好基础。经过对实验数据 
的分析，该方法快速可行,获得了理想的结果。 * 
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对 BM 串匹配算法的一个改进 

贺龙涛 1 ，方滨兴 2 ，胡铭曾 1 

(1. 哈尔滨工业大学国家计算机信息内容安全重点实验室，黑龙江哈尔滨150001; 
2. 国家计算机网络与信息安全管理中心，北京 100031) 


摘要：在对著名的^订-^此串匹配算法进行分析后，对 BM 算法中的尝试位置移动处理部 
分进行改进，提出了 BM 算法。该算法将好后缀移动与坏字符移动合并进行处理，从而尽量利用已 
有信息进行更大的尝试位置移动，使算法具有更高的效率。对 IBM 算法进行复杂度分析，对 BM 算 
法 、 KMP 算法和 IBM 算法进行实际性能比较，结果表明 BM 算法的平均运行时间明显优于 BM 算法 
与 KMP 算法。 

关鍵词 ：串 匹配: BM 算法： KMP 算法 ; BM 算法；尝试 

中图分类号： TP 301.6 文献标识码 : A 

Improvement rf Boyer - Moore String Matching Algorithm 

HELong - tao ' , FANGBiirxing " ,HLJ Mng - zeng 1 

0,. National Computer Irformation Content Security 句， Laboratory , Harbin Irstittde <f lk：}mdogy , Hiibin Fkilongjiang 150001 , China .， 
2 . National Computer Network and Itfoimation Systetn Seciuity Administration Center , Beijing 100031 , China) 

Abstract : Stiiiig matching is ail essential and inpoitait problem in conpiter science . After BM algpiitlun is analyzed , the shift 
function of the attempt position in BM algoiithm is improved , and IBM algoiitlun is put foiward . The IBM algoiitlvn combines Gbod - 
Siffix - Slift and Bach Character Shift to process , and makes the most of known information to increase the shift distance so that it is 
nr>re efficient . Bi the end , the analysis of the complexity of IBM algoiitlm and the conpaiison of peifomiance in practice about KMP , 
BM and IBM algoiitlmis are earned out . Hie results show that the average running time of IBM algoiitlvn is 58 % of BM algorithm s , 
and the average comparing time of IBM algoiitlun are 52 % of BM algorithm ’ s . 

Yty 、 vgt (1 s : stiiiig matching ;BM algoiitlm ;^1 P algoiitlm;IBM algoiitlun;attenpt 


在计算机科学领域，串匹配 [1] 问题一直都是研究的焦点 
之一。在拼写检查、基于字典的语言翻译 、 www 搜索引擎、 
计算机病毒特征码匹配、数据压缩、以及 DNA 序列匹配等应 
用中，都需要进行串匹配 P] 。串匹配就是在大量文本串中查 
找模式串的一个或所有出现。 

在本文中，模式串表示为 X = XoXl ，长度为 111; 文本 

串表示为 Y=ybyi • y„. 1 ，长度为 n; 字母表以 2 表示，大小为 
<?。当 w 是 u k 的一个前級时，称串 u 是串 w 的一个周期。最 
小周期长度定义为 period 

一般而言，串匹配算法分成两部分：1)算法初始化，对模 
式进行预处理 =2) 对文本进行扫描匹配 ：首先 将模式与文本 
的升始对齐，然后将文本与模式中对应的各个字符进行比较， 
当 XoXl 与文本中的 ya+i ••y 1+m _ 1 对齐时，称为对位置 i 

的尝试。在发现匹&失败或者完全匹配后，将文本的尝试位 
置向后移动。当模式长度远小于文本长度时，第一部分的預 
处理时间并不影响总运行时间。 

在串匹配算法中，最有影响的是 KMP 算法 p] BM 算法 [4] 
及其各神变形和简化算法。 

KMP 算法引入了 一个模式匹配自动机，用来查找模式在 
正文串中的所有出现，查找时间为线性。其自动机有三个组 


成部分 ：节点 ，表示模式串的各个 前缉； 成功链，由前缀节点 
[ XqXj - X ,. 1 ]指向前级长度加1的节点 [ XflX , 】；失敗链，由 
节点 [ xqXi - x ,. 1 ] 指向节点 [xoxi ' x ,. 1 ] ，其中 j < i 且 
[xdxi +、-丨 ] 为 [xoxi ''Xp 1 ] 的最大后缀。成功链表示读到的 
是希望的字符，匹配成功，逬入下一 状态。 失败链表示本次匹 
&失败，应回退到链所指的状态重新匹配 KMP 算法的最坏 
运行时间为 o ( m + n ) ，空间复杂度为 o ( m ) 。 

BM 算法在匹&时的尝试中，采用从后向前比较的方式， 
对模式串的后缀进行匹配，在完成一次尝试（包括匹配失敗或 
者成功）后，利用两个根据模式串预处理好的移动表坏字符移 
动与好后缀移动来尝试位置后移，但是由于它没有考虑已匹 
&的后缉与导致匹配失敗的当前字符之间的相邻关系，使得 
算法的效率不 够高。 本文使用统一的尝试位置移动表来对此 
进行改进，增加尝试位置后移距离，从而提高算法 效牟* 

1 Boyer - Maore 算法分析 

Boyer - M>ore 算法的特点是：在尝试时从后向前进行比 
较;在每次尝试完成后，使用坏字符移动表与好后缀移动表来 
进行尝试位置后移。 

对于在位置 i 的尝试，当前 ni - j - 1次比较都已完成，且 
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y .*,* iyi*,*2 “ yi + m-i 与 x J + ix J+3 相同，而在第 m - j 次比 

较时，模式中的字符& = b 与文本中的字符 yi+j = a 不相同，則 
^ yi * j + iyi * J+ 2 " y ^ m . 1 .人 -i = u 及 y 1+J 气测算 

法进行以下移动 计算： 

1) 好后组移动。在 X 中从后往前查找前导字符不是 b 的 
U 串（如图1所示）；如果不存在这样的 U , 则在 U 的后缉中查 
找与 x 的前缀相同的最长者 v (如图2所示）。 



a 1 (好后級移动, X 里还包含 U . 且该 U 前是一个不同于 b 的字符) 

y N u | 



图2 (好后组移动, X 里只含 U 的一个后坺) 


2) 坏字符移动。在 XtlXl ••左中从后往前查找字符■，的 
第一个出现(如图3所示）；如果 x 中不存在，则显然 x 只可能 
在 yN + iM + i +3 " yn - i 的区间中存在(如图4所示） • 



X 

图3 (坏字符移动 , x 包含 a ) 



改进后的算法工作过程与 BM 算法基本相同，只是不再 
区分好后缀与坏字符，而是将它们以及它们的相邻关系直接 
作为一个移动判断 ：对于 在位置 i 的尝试，当比较到\ 

时，改进后的算法在功 xi +' x m . 2 中从后向前查找 yi +, yi * j+i … 
yi + m - 1 ( 亦即 yitjX ,.1 X )*2 •• 3 m -1) 的最大后级的出现，并依据该 
后缀的偏移量来向后移动。也就是说，在 X 中从后往前查找 
前导字符是 a 的 u 串（如图5所示）；如果不存在这样的 II ,则 
在 u 的后缀中查找与 x 的前缀相同的最长者 v (如图6所示）。 



图5 (X 里还包含 u , 且该 u 的前导字符是 a ) 



图6 (x 里只包含 u 的一个后级) 


这样可以使用一个帝空移动的确定有限状态自动机 e - 
DFA 来进行匹配，结合每个状态上对所有未匹配字母的位置 
移动表来尝试位置向后移动。有限状态自动机形式地定义为 
S ( w ) = (Q , 2 P ,[ 0] ,1) ，其 中: 

状态集合 Q = {[ 0]} U {[ x 1 x , tii 1+ ： • • x m . 1 ]I 0 <i < m - 
1> ，即 Q 包括 X 的所有后缀，分别表示在对 Y 中位置 i 的尝试 
时，已经匹配了 0, y ltm . 1 . yjtm - syitm-l ,…， yi “ yi +：! .. yi + m - 1 ， 




图4 (坏字符移动不包含 a ) 


yiYi*i ''yhm-i 。 

[0] 6 Q 为初始状态 • 

字母表2包括模式串和文本串中所有可能出现的符号 • 
终状态集合 T = {[ xoxi . • 丨】 } ，表示已经匹配成功了 

y . yi*i 。 

移动函数的定义如下： 


BM 算法使用以上好后缉移动与坏字符移动计算得到的 _ [ xul ， if a = x ,.! 

移动值中的最大值来向后移动尝试位置。文献 [7] 证明算法 1) ^([ < Z >], a ) = [0] ， 

的空间复杂度为 0 (m + ff ) ，需要的预处理时间为 0 (m + ff ) ， 最 2) tf([xbXi .. Xm-1 ] , E ) = [ 0] ; 

坏运行时间为 0 (( 11 - m + l)m + cr) ，即扫描部分运行时间为 O 3 ) 当 0< j<m 时： 

(( n - 111 ) 111 ) 。在大字母表（相对于模式长度）情况下算法 <^([ XjXj^i ] ,^. 1 ) = [ Xj . 1 x ; x ;+1 • x M . 1 ] 

非常快 * ^([ X / Xj +1 ••• x ,*.! ] 9 a ) = [ 0] whe?e a ^ Xj . 1 


2 EM (Improved Boyer - Nfooie ) 算法 

由上面的分析可知，在位置 i 进行尝试，当比较到&关 
y 1+J 时算法是对 y 1+ j + iy 1+ 】 +2 ” y 1+m - 1 ( 亦即 x 〕 + 1 x j+2 ^ 1 ) 

与 y 1+ , 分别使用，计算它们在 Xo Xl 中的最后出现位置， 
并使用它们中的最靠前者，来获得较大的位置移动，而没有使 
用 y 1+ j + iyi + j +2 .， yi + m - 1 与 yi + j 的相邻位置关系信息，以下改进 
的 BM 算法正是将 y i + J y i+j + i " y i+m _ 1 作为一个整体来考虑，对 
BM 算法进行改进。 


移动函数 d 表示除了终状态 [XQXi ••心_ 1 ]应直接进行尝 
试位置 i 的向后移动之外，其余状态应继续进行比较。一般 
地，对于状态 [ X , + i Xj + 2 1 ] ，将要比较的是$与於 + 』，当》 

= y 1+ j 时进入状态 [ X j + 1 X ]+ 2 x m . 1 ] ，且将比较位置 j 減1，当 Xj 
々”时，根据当前状态 [ X 】 + lX j + 2 " Xm - 1 ] 与字符 y 1 + J 将尝试位 
置 i 向后移动，且回到状态 [0] 。 

位置移动表定义为一个二维数组其中 m 对 
应自动机的状态数，对应每个状态可能的输入字母表2的 
大小。对所有 j 6{0 ,1 , * 4 n - 1}, 所有 a € 2: 


min{m - 1 - k\ x k = a &x k+ \ •**x Jk+ ».i. > = x >+ i ...x 霞 . 1 }， jf 3 k ， x k = a &x k+ i = x j+x … x»_i 


sh lftlj][ a ] = mm{m ■ 1 • 免 | x 0 xi * = x^x^i 'x m .i} , tf 3 k，k > j &x^x\ •••x *」 


m 


otherwise 
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BM 算法初始化部分的伪代码 如下： 

将 staft 表的所有单元设置为 tn. 

将链表 last 置为空 . 

FORj 从 m - 1 到 ODO 

FOR 链表 last 中所有元素 1 DO 
IFx[j] = x[i] THEN 
将元素 i 減 1; 

ELSEIF shift[i][x[j]] = mTHEN 
shift[i][x[j]] = i-j, 

ENDIF 

DONE 

将元素 m - 1 插入到 last 头部， 

DONE 

遍历 last ，将其中最小元素值赋给 penod, 

将链表 last 元素倒转 ( 按从小到大排序 ） ， 

g = 0, 

VVHLE last 中还有元素 DO 
从 last 表头取一元素 h ， 

FOR k 从 g 到 h ，所有字母 a DO 
IFshift[k][a] = m THEM 
shift[k][a] = i + 1; 

ENDIF 
DONE 
g = h+ 1; 

DONE 

算法扫描部分的 C 语言源代码如后面程序所示，与 BM 
算法的区别在于比较完成后进行的尝试位置增加（第8行）， 
IBM 算法查找一个移动表 slift ，而 BM 算法查找两个表 bii>bc 
和 bii > gs 并进行比较。 

3 复杂度分析 

IBM 算法用到的转移表大小为⑽，这样，算法的空间复 
杂度为0 ( nP *) 。在初始化转移表时，需要时间0 (nf + m : + in 
+ nP ") =0( m(m + o * + 1)) ，而在进行匹配时 ， BM 算法与 BM 算 
法程序结构基本相同，则扫描部分运行时间为 0 (m ( n - 的）。 
因而 IBM 算法需要时间0 ( m(n - m ) )+ 0 ( m(m + ^ + 1)) = O 
( m(n + o * + l )) BM 算法的初始化时间复杂度稍高于 BM 算 
法，但是通常因此，两神算法时间复杂度基本相同。 

IBM 算法从两个方面改进了 BM 算法。 

3.1 改进1 

对于位置 i 的尝试完成后的移动计算 ，有： 

1) IBM 算法在 xqXi ••: 2 中从后向前查找到与 y 1+ J x J + i 


x J+ 2 " X m . 1 相同的子串 XkXk+1 '" Xk + m - j - 1 ( 对应图 5) ，則有： BM 
算法好后级移动查找到的 X s + 1 % + 1必然不会在串 Xk + 1 … 

Xk + m -,-1 之前，因为 y 1 + j ^ = X k , X k+ i + = X 】+ iX , + 2 … 

Xm 」 已满足好后級移动。于是 BM 算法好后缀移动值不大于 
IBM 算法的移动值。 

显然 3 M 算法坏字符移动查找到的 Xt 必然不会在字符 
x k 之前 3 M 算法坏字符移动值也不大于 IBM 算法的移动值。 

2) IBM 算法只在 xdxi ••心-2中从后向前查找到与 yi+jXj + i 
X J + 2 1 的一个后级相同的前级 XoXi - Xjc . i ( 对应图 6) ， 則 

有： x^xi •• Xk _ 1也是满足 BM 算法好后级移动的一个子串，于 
是 BM 算法好后缀移动值不大于 IBM 算法的移动值。 

无论 BM 算法坏字符移动是否查到 x t = y 1+J 3 M 算法坏 
字符移动值都小于 IBM 算法的移动值。因为 BM 算法只查 
找到 xbxi - x k . i ，即表明对应的“坏字符位置”在 XQ 之前。 

所以 ，1 BM 算法计算出来的移动值不会小于 BM 算法计 
算出来的好后缀移动与坏字符移动的移动值，也就是说 ， IBM 
算法的移动值不会小于 BM 算法的移动值 ^ 

3.2 改进2 

如前伪代码程序所示，第8行 IBM 算法查一个表，直接得 
到移动值；而 BM 要查两个表，进行比较得到其中的较大者。 
这样每次尝试位置移动 BM 都要少作一次比较。 

以上证明 ， IBM 算法实际运行達度比 BM 算法快。 

IBM 算法扫描部分 C 语言源代码如下，其中 i 表示尝试 
位置 j 表示当前比较位置 ， slift 为移动表，大小为 nP * ■: 

for (i = 0, l < = n - m;) 

( 

for (j =m - 1 ’ j > = 0 &&y[i +j ] = =x[j ] , - - j) 

/ * conpare in the attempt window from end */ 

if(j < o) 

{ 

OUTPUT(i); 

/ * output match succesfully at attenpt position l */ 
l + = penod, / * add atteiipt position i */ 

} 

else 

i + = shift[j][y[i+j]]; 

I * in BM algonthm 1 + = MAX(bm-gs[j + 1 ], 
bm-bc[y[i +j ] - m + j + 1) , */ 


表 1 


运行时间 (ms) 


比较次数 


算法 

总值 

每单词每字节平均值 BM 

总值 

每单词每字节平均值 

KMP 

3 05E+09 

2.93E- 02 

5.24E+11 

5.03E + 00 

BM 

1 02E+09 

9 77E- 03 

8 46E+10 

8 11E- 01 

BM 

5. 90E + 08 

5 66E- 03 

4.43E+10 

4 25E- 01 


4实验结果比较 

串匹配算法最重要的指标当然是运行时间。另外由于比 
较操作在串匹配中占有极其重要的地位，并且比较次数的多 
少也表征了匹配时间的长短 181 • 所以，本文对匹配时间 •较 
次数均进行 统计。 


本文选取 Linux 系统自带的英文字典文件 / usr / Act/wjrds 
中的所有单词作为要查找的模式串，该字典一共包含45402 
个单词。而要匹配的文本則选取 Linux 的实用程序 fortune (用 
来在用户刚登录进入系统时显示一些有趣的警句） 
的语料库 / ua / share / gamcs / foitunes / * ，该语料库一共61，716 

(下转第12 页） 
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(pi x d(i j )) 。图3 ( a ) 的平均消息量为 ：2 p 2 + 4 p 3 + 却4 + 4 p 5 。 
图 3( b ) 中，在杈括从1结点传送到2以后，树的结构没有发生 
变化，但是根结点变成了结点2。 

如果 Pl 也可以用来表示某个结点成为根结点的概率，则 
可以想到整个组的平均消息量是每个接点的平均消息量的总 
和。数学表示式 如下： 

n n 

2 E 2(p. X R x d(i ,j)) 

>*i j-i 

这个式子也可以叫作该树的代价。 

Ra ^ iiond 通过模拟，他的算法在等概率的前提下平均消 
息量为 0( log ( N )) ■ 在文献 [4] 中提出的最小代价树是基于将 
最大概率的结点放在中间，以便经常访问，这时代价将不多于 
4个 消息。 

5总结 

本文将两个互斥算法结合在一起。在路由器之间的外部 
算法是基于优先級的 Kcait - Agrawak 算法类型，在组里面的 
内部算法是帝有一个 FIFD 全局队列结构的 Rayiiond 算法类 
型，它将授予许可从路由器传递到组，并将唯一的杈标賦予请 
求的结点。出于优先級方面的考虑，路由器在获得其它路由 
器许可后可以产生自己的杈标，并且当有更高优先級的请求 
消息到达时，该路由器将中断自己组内结点在临界区的活动 
并发回许可消息。 
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行,411,441个单词 ,2,296.933 个字符，包含了各神各样的警 
句，每小段文字间几乎上下文无关，覆盖面广，是串匹配测试 
的较好材料。本文对 KMP 算法 、 BM 算法和 BM 算法进行測 
试比较。測试程序与算法均用 C 语言实现。測试中对三个算 
法均使用同样的调用方式，由同一个主程序来调用。主程序 
读取上述字典文件和语料庠文件，然后使用字典中的每一个 
单词作为模式串，以语料库作为文本串，分别调用以上三个算 
法来进行匹配，匹配算法中均插入了 CPU 时间计数和比较次 
数计数。 

“总值”表示各算法对正文匹配所有单词的所有出现的总 
运行时间与比较次 数；“ 每单词每字节平均值，，表示总值除以 
单词数与正文长度后的数值，即对正文中每字节匹配每单词 
的平均运行时间与比较次数。 

对測试结果进行处理，得出 IBM 算法的平均比较次数为 
KMP 算法的8 . 4 5 % BM 算法的5 2 . 3 5 %，实际平均运行时间 
为 KMP 算法的19.32% BM 算法的57.93%。由此可知，虽然 
KMP 算法完全达到了线性達度，但是实际运行效率远不如最 
差时间复杂度高一些的 BM 算法与 BM 算法。 BM 算法的实 
际运行效率已经在 KMP 算法基础上有很大提高，在尝试位置 
移动中利用了从后向前比较所获得的绝大部分信息。而 BM 
算法在 BM 算法基础上，更完全地利用了已有信息，使实际效 
率进一步 提高。 


[2] Raymond K A Tree - based Algonthmfor DistnbutedMitual Exduaon 
[J ] ACM Transactions on Cbnpliter Systems , 1989 ,7 (1) : 61 - 77 

[3] Gbsanski A Two Algorithms for Mutual Excluaon in Real - time Dis- 
tnbuted Cbnputer Systems [J ] Journal of Parallel and Distributed Cbnr 
puting ,1990 ,9(1) 77- 82. 

[4] Gbsanski A A Synchronization Algonthm for Processes with Dynamic 
Rionties in Cbmpliter Networks with Node Failures [J ]. Iifonnation 
ftocesang Letters ,1989 ,32(3) 129 - 136. 

[5] Haratb K, Johnson T A Pnonty ^nchromzation Algonthm for Miltr 
processors[R]. Technical Report tr93. 005 , FTP as. \il edu : cis/tech 

- reports, 1993 

[6] H^usm A, It 4el M. ^>ecification of the Riontized Algonthm for N 
groins [ Z ] Laboratoire d'Lfonnatique de l Umverat c de Franche 
Cbmt c, France , February 2001. 

[7] Johnson T, Newman - ^folfe RE. A Cbnpanson cf Fast and Low Over¬ 
head Distnbuted Pnonty Locks [J ]. Journal cf Parallel and Distributed 
Cbmputing ,1996,32 (1) 74 - 89 

[8] Mieller F Riontized Token - based Mutual Exclusion for Distributed 
S/stems[A] 12th IPPS/SPDP[C] Orlando ， Honda USA, 1998 

[9] Qazzaz B14K A New Prioritized Mutual Exduaon Algonthm for Distnlr 
uted 3ystems[D] Dept cf Cbmp SCI , Southern Illinois University , 
Garbondale , 1994 

[10] WuJ 分布式系统设计 [M] 高传善，等译北京机械工业出 
版社 ,2001. 

[11] Nami M, Trehd M, Arnold A A O(log(n) ) Distnbuted lAitual Ex¬ 
clusion Algonthm Based on Path Reversal [J ]. Journal cf Paralled and 
Distributed Cbnputing ,1996 ,34(1) 1 - 13. 


5 结论 

由于 EM 算法考虑了每次尝试时已匹配的后缀与未匹 
& 字符的相邻关系，可以在尝试失败时的向后移动中进行更 
大的移动，这样，在没有增加最差时间复杂度的情况下 ， EM 
算法的平均查找效率比 BM 算法有了显著的提高， 
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□ Abstract^ As an important component of the network security system, the IDS didn’t work as well as expected in practice. This article analyzes 
the essential problem of the current NIDS, where there is too much invalid information and the NIDS almost know nothing about the network 
environment, which it is in. Besides, it also presents some ways to improve the NIDS. So the NIDS could discover and analyze the network 
environment information and work more particularly and effectively. 
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一种支持通道信息关联的多媒体数据流过滤模型 

李军 u 廖豪 23 陈洁 1 ’ 2 谭建龙 2 

(北京邮电大学计算机学院北京 100876) 1 (中国科学院计算技术研究所北京 100190) 2 

(中国科学院研究生院北京 100049) 3 

摘要 多媒体数据流包含多种数据形态（文本、图片、音视频）和多种通道信息（地址信息、链接信息、时间和会话信 
息等）。多媒体数据流通道之间具有一定的内容相关性。以往对多媒体过滤的相关工作局限于单一的数据模态，不支 
持不同模态信息的融合过滤和不同教据通道间的关联过滤。提出了一个新的支持多模态融合过滤和多通道联合过滤 
的多媒体数据流过滤模型（简称为 MCFMS 模型）。在真实多媒体数据流上的实验结果证明，在复杂数据流环境下， 
MCFMS 模型可以有效地进行多模态融合过滤和多通道联合过滤。 

关键词 多媒体数据流，过滤规则，多通道 


New Multi-channel Multimedia Data Stream Filter Model 

LI Jun 1 ， 2 LIAO Hao 2 , 3 CHEN Jie 1 ' 2 TAN Jian-long 2 
(Department of Computer Science and Technology,Beijing University of Posts and Telecommunications,Beijing 100876, China ) 1 
(Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190, China ) 2 
(Graduate University of Chinese Academy of Sciences, Beijing 100049, China ) 3 


Abstract Multimedia data stream is fused with data of different formats,e. g. text,pictures,audio and videos. To filter 
out sensitive information fast and accurately enough from high-speed multimedia data stream proves a great challenge 
that has not yet been well tackled. This paper proposed a model for filtering multimedia data stream，and implemented a 
validation prototype system upon national backbone network. The prototype system uses the intelligent rule base to es¬ 
tablish filtering rules to relational data engine mapping mechanism, uses the decision tree strategy to establish the classi¬ 
fication model for calculating the similarity to reduce the complexity of calculating the similarity degree of success a- 
chieved high-speed multimedia data real-time stream filtering. Experiments show that the model can efectively finish 
multi-mode filtering and multi-channel filtering in a multimedia data stream environment. 

Keywords Multimedia data stream. Filtering rule, Multi-channel 


i 引言 

信息过滤主要解决网络中信息的主动推送问题，实现个 
性化的网络信息主动服务，有选择性地传播和利用信息。信 
息过滤技术是一种系统化的方法，将用户需求与动态信息流 
进行匹配计算，从信息流中抽取出符合用户个性化需求的信 
息并送给用户。相比于传统的信息检索模式，信息过滤技术 
具有较高的扩展性，适合于大规模用户和海量信息的场合，可 
以为用户提供及时、个性化的信息服务。目前网络信息过滤 
的方法主要有4 种：基 于因特网内容分级平台过滤 （ PICS )、 
数据库过滤 ( IP 库、 URL 库）、关键字过滤以及智能内容理解 
过滤。内容分析过滤技术一般包括文本内容分析过滤、图像 
内容分析过滤、视频内容分析过滤和智能混合过滤等。 

在高速网络环境下，来自多种数据源、多种网络协议和多 
种数据形态的相关数据流统称为多通道数据流， 例如： 网络内 
容信息流和网络结构信息流、多种网络协议下的数据流、 P 2 P 
协议流和 SMTP 协议流、多种数据形态的数据流(文本流、图 
片流、视频流和音频流）。联合多个通道上的信息进行分析具 


有重大的理论价值和现实应用前景。多通道数据流承载了大 
量的外部环境信息，为基于环境感知的信息过滤和文本识别 
技术提供了基本保障。 

多通道联合过滤、多模态融合过滤是多媒体过滤的重要 
工作,同时也是未来的研究热点。 （1) 多通道联合过滤为未来 
的信息过滤处理提供了替代性分析手段。例如在网络信息战 
中，当某个通道的信息由于加密、隐私保护等原因无法正常获 
取时，可以利用其他相关度较高的通道中的信息进行分析和 
过滤。通过计算不同通道数据间的关联度来确定通道间的关 
系，在关联度较高的通道间进行关联过滤。 （2) 多模态融合过 
滤是我们针对当前网络内容形式多样化的背景下提出的全面 
的过滤 需求。 例如，我们想过滤当前数据流中所有文本含有 
“人”且图片中也含有图像“人”的数据流项。这种过滤需求如 
果用现有的方法来解决是非常耗时且难以表达的。 

2 国内外研究现状 

近年来，许多学者对信息过滤技术进行了研究，提出了多 
种过滤模型。金峰等 [1] 提出倾向性文本过滤模型。李宝林 [2] 
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提出利用关联分析的方法鉴别文档中的特征项。 Roberts 
等 [3] 提出在目标文本周围人为构造负面样本。 Lucas 等 [ «利 
用高斯分布计算正面样本的概率分布密度 函数。 以上工作主 
要集中在文本的过滤。杨金峰等 [5] 分析比较了几种常用的肤 
色检测算法，利用统计阈值法实现了一个决策树图像过滤器。 
温泽逢等 M 提出了一种基于内容的图像过滤新方法,该方法 
首先分割皮肤区域，再提取皮肤边缘区域边界，最后进行傅里 
叶变换。段立娟等 [7] 提出了基于计算机视觉和模式识别的色 
情图像过滤方法。文献 [5-7] 的工作主要是关于图像过滤技 
术的 研究。 综上可知，以上工作都无法解决针对多种数据形 
态的融合过滤的需求问题。也就是说当前针对多媒体数据的 
过滤技术比较单一化,不支持多模态的融合过滤。 

以往数据流上的过滤模型只关注单一的文本内容通道， 
而忽略了其他通道上的环境信息，多通道则为我们提供相对 
完整的数据流上下文环境信息。网络上的通讯双方可能会采 
用不同的通道路径传输信息，结合多个通道可以有效获取全 
局信息。目前信息过滤领域关于多通道过滤只开展了很少的 
工作，当前信息过滤技术忽视了相关通道信息的利用价值。 
关于多通道信息融合的相关工 作有: Jabri 等 [ «提出将颜色 
( Color ) 和边缘 ( Edge ) 信息进行融合来检测视频中的人，这种 
方法的鲁棒 性好; Adams 等 [ ®提出利用视频、声音和文本信 
息来对多媒体数据进行语义 索引； Velivelli 等 [1 ° ] 使用视频-音 
频融合来检测影视中的场景 变化; Berretti 等从一个分布 
式的、异构的多媒体数字图书馆 ( MIND ) 项目出发，给出了将 
从多个不同源获得的结果进行融合的方法，对各个分布式的 
数字图书馆给出的查询结果（一个分数)进行归 一化 ; Raskar 
等 [12] 提出一类图像融合技术来自动组合不同光照下的一个 
场景; Zhapa 等将文本和视频信息进行融合，提出一个基于 
镜头联接图 （ SCG ) 的方法来将新闻节目按故事主题进行分 
割; Zhu 等 [14] 通过融合文本和图片的信息来提高图片的检索 
精度; Philipp 等提出在一个交互式对话系统中使用人脸识 
别和语音识别融合来提高个人身份识别的 精度; Liu 等也 
提出一个人脸和语音融合的方法来进行个人身份识别，但是 
所不同的是他们的模型是提取人脸的某个子空间区域(嘴唇） 
的特征和声音特征来进行融合，而不是通过融合整个的人脸 
特征和声音的方法来降低特征数; Callatfm 等给出了一个在 
异构和分布式的数字图书馆中进行数据融合的工程 实现； 
Wei 等在文献 [18] 中提出恰当地对检测器进行融合对于大规 
模的多媒体检索非常重要，所选择的检测器不但要考虑其语 
义内容，而且要考虑其在被査询视频数据域中的可靠性、可观 
察性和多 样性; Yang 等使用手指血管信息和背部纹理信 
息融合进行个人鉴定; Zhang 等「 2 «考虑到基于多媒体的音乐 
检索,但没有开展相应的研究工作，他们提出一个整合多个在 
线的 folksonomy 数据进行音乐检索的模型。 

王珊等 [21] 研究了数据库领域未来几个发展方向，其中包 
括数据流管理。李建中等 [22] 提出了一种数据流频繁项挖掘 
算法，其侧重点在于数据流挖掘。 周傲英等 ⑽ 4 ]侧重于构建 
数据流监测系统，侧重点在于数据流挖掘。冯玉才等 Bs] 提出 
了数据流数据管理系统。该系统有效地完成了数据的管理并 
提供了检索功能,实现了传统数据库管理的概念向数据流领 
域的转移，侧重于数据流的数据管理。金澈清等提出了一 
种在多数据流上共享窗口连接查询的降载策略，其具有多数 
据流关联的概念，侧重于查询操作的调度 优化。 


3我们的工作 

综上所述，当前信息过滤领域存在3个问题:过滤系统对 
融合过滤需求本身支持不够，忽视了多通道信息的辅助作用， 
以及缺乏对相关度很高的数据流进行联合过滤的支持。针对 
以上不足，我们提出了支持多通道的多媒体数据流过滤模型 
MCFMS ( Multimedia Multi-channel Filtering Model . on 
Streams,MCFMS) c 该模型主要着眼于支持多种模态信息的 
过滤，多通道信息表示和多通道联合过滤。本文的主要贡献 
归纳 如下： 

1. 针对当前信息过滤的单一化方式无法有效地应用到复 
杂的网络数据流过滤中， MCFMS 提出了支持多模态的融合 
过滤需求，并提供了融合过滤需求的表示和翻译机制。 

2. 多通道信息在多媒体信息过滤中具有重要作用。针对 
当前信息过滤技术对多通道信息的忽视， MCFMS 定义了多 
通道间的信息关联度以及多通道联合过滤语言的表示和翻 
译。 


4支持多通道的多媒体数据流过滤模型 

结合网络数据流的结构特征和过滤规则的多样化，本节 
提出了支持多通道的多媒体数据流过滤模型，并且给出了多 
通道相关度的衡量机制以及支持融合过滤需求的策略.最后 
还实现了一个复杂网络环境下的验证系统。 

4.1 MCFMS 的系统结构 

MCFMS 的主要思想是在高速多媒体数据流环境中，提 
供一套构建高效、准确的数据流过滤系统的理论依据。 
MCFMS 可作为具体的多媒体信息过滤系统设计的理论依 
据。其体系结构如图1所示。 



图 1 MCFMS 体系结构图 


如图1所示,数据流内容提取模块通过数据导人模块获 
取高速多媒体数据流•多通道相关度计算模块计算不同数据 
流通道间的相关度，多通道信息提取模块负责对通道数据流 
按照模态以及特征信息进行信息提取，向量抽取模块负责对 
处理过的信息进行特征抽取，然后将抽取的特征向量送人过 
滤计算模块。 MCFMS 模型的关键部分是过滤计算以及多通 
道相关度计算。 

4.2 MCFMS 的总体设计 

本节提出了支持多通道的多媒体数据流过滤模型 
MCFMS , 如图1所示。 MCFMS 分在线过程和离线过程。离 
线过程主要完成过滤规则的自动发现。在线过程完成多媒体 
数据流的实时过滤。通过对输人数据流的内容进行有效的协 
议还原和内容抽取，完成多通道数据的信息提取，然后对多通 
道数据流进行相关度计算，进而完成多媒体信息内容的抽取， 
对抽取的内容进行向量提取并交给过滤计算模块。过滤计算 
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模块根据类型分别进行传统文本的匹配、向量相似性计算、流 
相关性过滤，并将计算结果送入结果融合模块进行结果处理。 
MCFMS 的输出数据是结果融合模块产生的过滤结果。 

4.3 多通道联合过滤 

4.3.1 多通道关联 

不同通道的数据流之间是否进行联合过滤的依据是判断 
通道间是否相关。我们首先以多文本通道间联合过滤的例子 
来介绍通道数据流相关度的概念，如图2所示。为了保证语 
义上无关的通道间不发生关联过滤，我们定义了通道间的关 
联度。例如图2中通道 S 2 与通道 S 3,虽然它们的过滤关键 
字组合在一起可以满足过滤规则，但是因为通道数据流 S 2 与 
通道数据流 S 3 不相关，我们就不能将 S 2 与 S 3 盲目关联。这 
样就避免了一些盲目的关联过滤计算。接下来解释如何在一 
个滑动窗口中定义通道间的相关度。 




多教据流中的过滤 


| 通遒 S 2| 
|gS3| 
|^S4l 



图 2 多数据流关联过滤 
4.3.2 通道相关度 

在介绍通道相关度这个概念前，首先定义数据流。 

定义 1( 通道数据流）通道数据流 S ： = ( S . sessionlnfo , 
S . participants , S . objects ) 由通道数据流会话信息、数据流参 
与者和连续且异步的对象序列组成。对象序列 S . objects ； = 
(oi ,02 ，._•)，其中对象 o : = ( o . time , o . type , o . size , o . con - 
tent ), 其中 o . time 表示通道数据流对象的时间戰; o . type 表 
示通道数据流对象的类型，如图片、文本、音 频等; o . size 表示 
当前通道数据流对象的 大小; o . content 是当前通道数据流对 
象 0 的内容。因此每个通道数据流都可以看成 bit 信息序列。 
S , : = ( S ；. sessionInfo , Si . participants , (( S ,. oil . time , S ,. oil . 
type , Sj . oil . size , Si . oil . content )，•••））， 我们用 o,j 表示通道 
数据流 S , 中的第个对象。 

S . sessionlnfo 是对当前流会话的描述信息。例如 email , 
webmail , webpost 中的 sessionid 。 也可以是 blog 或者 Web 
页面中的 tide 。 很多时候 sessionlnfo 的信息内容与通道数据 
流的属性特征密切相关，同时还与信息特征的抽取算法密切 
相关。 S . participants 表示会话参与人，例如 IM 信息中的昵 
称，或者 email > weimail 中的源、目的地址信息。 o . time 表示 
数据流对象的时间戳。对于数据流中结构化的信息如 XML 
等，也可以用我们的数据流定义来表示。 

假定存在一个流序列 S == { &，…， S , 这个 S 由 p 个通 
道数据流组成。两个通道 S , 和 S ; 之间的关联度用 a ( S , ，馬> 
来表示。定义两个通道之间的关联度在不同的实际应用系统 
中可以有区别。下面用我们的验证系统中关于关联度的定义 
举例。例如要定义两个 email 或者 IM 数据流之间的关联度， 
用如下公式 表示： 

a (. S i , S i )= E p * R p (. S i , S ,')+ E c ^ R ^ S ^ Sj ) 

式中 ，私 表示通道数据流 S , ■的 participants 与 S ; 的 partici - 
pants 之间的关联度。兄表示通道数据流 S , 的 Content 与通 
道数据流的 Content 之间的关联度 。尽和艮 分别代表着 
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当刖通道数据流的 participants 与 content 之间的信息相对权 
重。可以为0,表示通道数据流中 participants 信息没有任 
何有用信息。 a ( S ,， S , ) 的值越大，表示通道数据流 S ; 与& 
越相关。关于计算 R P ( S , ,$ ) 与尺 （ S , , S ;) 的方法有很多种。 
根据具体的应用系统可以自行选择。在这里我们提供的 Jac - 
card coefficient 方法仅作参考。例如我们想计算通道数据流 
S , 与通道数据流 S , 的汉；>(&,各），方法如下 ： 


R P (Si ,Sj) = 


a pr\Sj. p) 


{ S ,. p \ JS ,. p ) 

在我们的验证系统中，通过定义“关键内容字典”和“过滤 
内容字典”来计算通道数据流中的文本内容相关度，基本可以 
反映通道本身的语义信息相 关度。 我们将通道数据流中的文 
本信息看成“词流”，用我们的“关键内容字典”和“过滤内容字 
典”来构建一个临时的“词频表”。这样通道数据流 S , 就变成 
了--个向量 X 。，文2，…， A ] 7 "， 其中 ■!,_ 6 [0，1]。现在 
我们来表示尺 （ s ,， s ,)， 用 y 来表示 S ; 产生的向量。这里借 
鉴了文献 [2] 中的关联性定义。 

I i ( X t - U ,)*( Y t - U i ) 

N* ai * aj 


尺 （ s,- ， s;): 


式中， l /, 和 <7, 是通道数据流 S , 的平均值和标准方差。 N 表 
示“关键内容字典”和“过滤内容字典”的总数。 

从上面的等式可以得出如下 结论： 

(1) 内容关联度与 N 有关。 

(2) 内容关联度与通道的表现力有关。 

(3) 内容关联度与通道间的共享度有关。 

4.4 过滤规则描述语言 

4. 4.1 过滤规则定义 

定义 2( 过滤规则）一条过滤规则由条件表达式和动作 
表达式组成。其中条件表达式由谓词和关系运算符 A 组成， 
动作表达式由动作单元和关系运算符 A 组成。简单来讲，一 
个过滤规则的含义是若条件表达式为真，则执行动作，否则不 
执行动作。若条件表达式为空，则动作无条件执行，即表示对 
所有的多媒体流都执行动作。判断条件表达式为真的方法是 
若条件表达式中的所有谓词都为真，则条件表达式为真。 

定义 3( 融合过滤规则）如果一条过滤规则中含有不同 
模态的过滤需求或者不同通道间的过滤需求,则这条规则即 
为融合过滤规则。例 如:过 滤规则 r 表示过滤掉多媒体数据 
流中图片的直方图特征含有 a ， url 链接中含有6或者 c 并且 
text 文本中含有“当它们…”的关键字的话,这条过滤规则 r 
就是融合过滤规则。 

4.4.2 过滤规则的表示 

我们在 MCFMS 中提出了一种全新的过滤规则描述语 
言 FRDL ( Filter Rule Description Language , FRDL ) 0 FRDL 
是以将多种多媒体过滤规则统一化描述为目标，结合多媒体 
数据流模型概念的扩展。此外，对于 FRDL 的研究和设计， 
不单单指纯语言上的设计，还必须提供给它们一个完整的 
FRDL 执行器，以便执行 FRDL 语句串，实现过滤规则集的构 
建和翻译。这个 FRDL 的执行器包含了语言接口、翻译器和 
执行单元3大模块。如图3所示，执行器的输人数据是 
FRDL 语句串，执行器负责调用语言接口，将 FRDL 语句串提 
交给翻译器,翻译器对语言进行解析，转换成可执行语句，然 
后在执行单元上执行。 






图 3 FRDL 执行器框架 


4.4.3 过滤规则描述语言的语法以及特点 

过滤规则是 FRDL 意义完整的基本单位。所有的过滤 
规则条目组成了过滤规则库。表达式形式 如下： 

过滤规则：：=条件表达式 > 动作。 

FRDL 语法主要创新 点是： 

(1) 支持多模态的过滤需求 

例如过滤规则的需 求是: 对所有多媒体数据流中图片的直 
方图特征含有水、 haar 特征含有人、协议信 息是: webmail 、 文本 
中含有关键字是“西藏问题是…”，则对该多媒体采取禁止动作 
并记录日志。那么这个过滤规则可以用 FRDL 表示 如下： 

Rule( Expre ( filterl Name (water) Type ( histogram) Val ( Vname 
(vl)(0. 2587,0. 3659,••■) A Name(people)Type(haar)Val(0. 5896, 
0,4569 …） A Name( pro) Type (protocol) Val (TYPE_WEBMAIL) A 
Name(tibet)Type(text) VaK 西藏问题是 … ））Act ions (ban A log ))。 

(2) 支持多通道的过滤需求(参见上面的过滤语义举例） 

4. 4.4 FRDL 语法解释 

(1) 一条过滤规则由条件表达式和动作表达式组成。其 
中条件表达式是由谓词和关系运算符 A 组成。动作表达式是 
由动作单元和关系运算符 A 组成。 

(2) 简单来讲,一个过滤规则的含义是如果条件表达式为 
真，则执行动作，否则不执行动作。如果条件表达式为空，则 
动作无条件执行，即表示对所有的多媒体流都执行动作。判 
断条件表达式为真的方法是如果条件表达式中的所有谓词都 
为真.则条件表达式为真。条件表达式是谓词的联合。通过 
上述 EBNF 定义可以看出同一个谓词可以同时出现在多个 
条件表达式中，也就是说多条过滤规则可以共享同一个谓词。 

(3) 谓词可以是向量、 URL 、 文本、 IP 集。其中向量表示 
对流数据进行特征抽取后的向量值。动作表示为禁止、放行、 
警告、日志、统计。 

(4) FRDL 分析树的一般形式如图4所示。 



图 4 FRDL 翻译器工作流程图 


4. 4.5 FRDL 翻译器（语法制导翻译） 

FRDL 翻译器是 FRDL 执行器中最核心的模块。其主要 
功能是完成 FRDL 的词法分析和 FRDL 语句的翻译 。 FRDL 
翻译器作为一个简洁的语言翻译器，采用自定义语法制导翻 
译模式设计。 FRDL 翻译器的语法制导翻译模式基于 FRDL 
的语法制导定义。 FRDL 制导定义根据与 FRDL 语义部分相 
关联的属性说明了 FRDL 的一个结构的翻译，只是 FRDL 语 
义规则的计算次序是显式给出的。 FRDL 语义动作的执行位 
置通过用括号把语义动作括起来并将其放在产生式右部来表 
示。 FRDL 的翻译模式对于每条语句都产生一个输出。方法 
是通过输入语句的分析树的深度优先遍历顺序执行语义动 
作 。如 ： keyValue — keyUnit { execUnit (‘ select * from 
tablel ’）} keyValuel ， 表示 keyValue 产生的分析树与语义动 


作，如图5所示。我们通过为语义动作构造一个特殊的子节 
点来指出语义动作，并使用虚线连接到其产生式的 节点。 



图 5 FRDL 执行器的翻译模块工作流程图 

FRDL 翻译器的词法分析模块读人 FRDL 语句串后，将 
其转换成可以进行语法分析的记号流。 FRDL 的语句是由记 
号串构 成的。 FRDL 词法分析模块的主要功能是完成提出空 
白符和注释、常数识别、识别标示符和关键字。 FRDL 词法分 
析模块从输人串读字符形成词素，然后将词素生成的记号及 
其属性值传递给 FRDL 翻译器的下一个模块-解析控制模块。 
解析控制模块的主要工作是首先消除左递归,然后利用递归 
下降语法分析方法完成语法分析。按照从根节点到叶节点的 
顺序构造分析树。发射输出模块的主要工作是将属性值转换 
为自定义的可执行语句串，将其作为可执行单元的输入数据。 

FRDL 翻译器的工作流程图如图6所示。 


PRDL 语句串丄 

― 丽爾類， 

1 rn A 词法分析 

] 

I FRDL 初始化 | - 


| FRDL 為号表 - i 解析控制 

H 出错控制 | 

1 发射输出 

] 

可执行语句 i 



图 6 FRDL 执行器的翻译模块工作流程图 


5系统实现 

基于骨干网中核心网关的高速多媒体数据流环境，结合 
模型的理论支撑，我们设计并实现了多媒体数据流过滤系统 
( F 9)。 该系统成功实现了对高速多媒体数据流快速准确的 
分析，并对用户的网络行为进行有效的管控。 F 9 系统的框架 
设计图如图7所示。 



结束语 本文首先提出了一个新的支持多通道、多数据 
流关联、多模态融合的过滤模型 MCFMS 。 与以往的模型相 
比， MCFMS 可以进行多通道过滤、多模态融合过滤以及多数 
据流过滤。在高速多媒体数据流环境下的实验结果证明了 
MCFMS 过滤模型的有效性。 

本文的下一步工作 包括: （1) 研究一条过滤规则中的共享 
过滤单元的计算策略，进一步降低相似性计算的复杂度和过 
滤规则校验的准确性； （2) 在实际的网络数据环境中，不同模 
态的数据特征差别很大，提供一套统一的特征抽取策略也是 
我们下一步工作的重点。 
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摘 要：现 有的从 PDF 文档抽取文本内容的方法（如 PDFBox 类库采用的方法）处理速度较低，无法满足高速网 
络中内容分析的需求，也不能对网络中部分到达的 PDF 数据包进行流式的处理。为此，提出了基于自动机理论的 
PDF 文本内容抽取方法。该方法通过建立具有层次的关键字自动机，可以快速地抽取完整 PDF 文档和不完整 PDF 文 
档中的文本内容。在中文和英文 PDF 文档数据集下的实验结果表明，基于自动机理论的 PDF 文本内容抽取方法耗时 
仅为 PDFBox 方法的 17% ~37 %。 

关键 词：文 本内容抽取；自动机;确定的有穷自动机;不完整文档 
中图分 类号: TP311.52 文献标 志码: A 


Extraction of text content from PDF documents based on automaton theory 
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Abstract ： The existing methods of extracting text content 
library, are not efficient enough to handle the high-speed 
streamingly from partial PDF packets in transfer. This pap« 
adopted a hierarchical keyword Deterministic Finite Aut< 
files. The experimental results show that the response 
by PDFBox when processing PDF files in Chint 
Key words: text content extraction; aut< 




o 引言 

PDF 文档 [1] 内容抽取是指对 PDF 格式 f 档迸行结构分 
析，并抽取出其中重要的文本内容信息 # 片信息的过程。 
PDF 文档内容抽取的应用泛围非常广学术搜索、商品搜 
索、文本挖掘、知识库建立以及容过滤。现有的 PDF 
文本内容抽取方法处理速度^氐法满足高速网络中内容 
过滤和分析的需求，同时也不网络中部分到达的 PDF 数 
据包进行流式的处理，更不能抽取不完整的 PDF 文档中的文 
本内容。本文实现了基于自动机理论的 PDF 文档内容抽取。 

关于 PDF 文档及其应用的研究可分为两类 :1 ) PDF 阅读 
器的设计。即通过对 PDF 文档的格式进行分析，用面向对象 
的方法，完成中文 PDF 阅读器的设计与实现 & 3] 。 2)PDF 文 
档内容抽取。 PDF 文档内容抽取又可以分为两大类。一类是 
通过分析 PDF 文档的格式，直接将其中的文本信息和图像信 
息抽取出来 [4 _ w] 。 William 等 [7] 研究了 PDF 文档的文件理解 
和文件分类。首先将 PDF 文档的每页分解成一些几何元素， 
然后通过分析几何元素之间的关系，将几何元素组成一些逻 
辑块。分块完成后用改进的 Blackboard 算法分析整个文档的 
架构并进行归类 ( 如报纸、杂志、宣传册、商业信函等 ）。 Yuan 


i 


uch as the one adopted by the PDFBox 
these methods cannot extract the contents 
new method based on automaton theory. The method 
extract information from complete or incomplete PDF 
e w^posed method is about 17% - 37% of the algorithm used 

tic Finite Automation ( DFA); incomplete document 

等 [8] 通过对 PDF 文档的分析，在原来的文本信息中加人一些 
额外的统一标签后将原来的文本转化成一种半结构化的信 
息，在这种信息上利用模式串匹配算法得到 PDF 文档题目、 
作者、地址、摘要和关键字等信息。 Chao 等 [9] 对怎样将 PDF 
文档的布局以及其中的各种内容抽取出来进行了相关研究。 
另一类 PDF 文档内容抽取方法是将原 PDF 文档转换为其他 
文档格式，从而利用抽取中间文档格式内容的方法抽取 PDF 
文档中的内容。已有的方法包括基于 XML 的 PDF 文档信息 
抽取，通过设计科技论文的 DTD 文档，把以 PDF 格式表示的 
科技论文解析转换为有效的 XML 文档 [11] ; 或者基于 XSLT 的 
PDF 论文元数据的抽取，它以 XSLT 作为信息抽取规则,利用 
文本特征、位置特征以及显示特征对中间 XML 文档进行基于 
XSLT 规则的信息抽取 [12 _ 13] 。 

现有的关于 PDF 内容抽取的方法的缺点主要有 :1 )可移 
植性不好，无法自适应不同版本的 PDF 格式，当文件格式发 
生变化时，必须修改已有的 程序 ; 2) 可扩展性不高，无法对高 
速网络中的 PDF 数据进行实时 抽取 ; 3 ) 过分依赖文档的完整 
性，不能对网络中部分到达的 PDF 数据进行流式处理，也不 
能抽取不完整 PDF 文档中的文本内容。 

基于自动机理论的 PDF 文档内容抽取，首先，将 PDF 文 


收稿日期： 2012-02-21 ;修回日期 :2012-06-23 。 
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作者简介 : 王晓娟 （ 1985-), 女 , 内蒙古赤峰人，硕士研究生，主要研究方 向：信 息内容安全、模式串 匹配； 谭建龙 （ 1974-), 男，湖南长沙 
人 , 研究员，博士，主要研究方向洎然语言处理、网络安全、模式 匹配； 刘燕兵 （1981 - ) ，男，湖北麻城人，助理研究员，博士研究生，主要研究方 
向 : 信息内容安全、模式串匹配 算法； 刘金刚 (1963 -), 男，辽宁铁岭人，教授，博士，主要研究方 向 : 操 作系统、智能接口。 




2492 


计算机应用 


第32卷 


档中标识文档格式的关键字提取出来，组成关键字树。然后， 

基于自动机理论将关键字树建立成具有层次的自动机。最 
后，扫描网络中的数据流或者待抽取的本地文件，识别出其中 
的 PDF 文档，并将其中的文本信息抽取出来。本文方法不但 
可以抽取完整 PDF 文档，还可以处理部分破损的 PDF 文档中 
的文本信息。同时,在处理网络中的数据流时,不需要存储所 
有的数据，节约了大量内存空间。最后，通过过滤掉一些与抽 
取文本信息无关的内容，大幅度提高了处理速度，减少了响应 
时间。 

1 PDF 文档的结构 

结构化的文档格式 PDF [1] 是由美国排版与图像处理软 
件公司 Adobe 于1993年首次提出的。它由页面描述语言 PS 
( PostScript ) 发展而来，具有与 PS 几乎相同的页面描述能力 
和相似的描述方法。但与 PS 不同的是, PDF 除了能描述复杂 
版面外,还具有交互功能 （ 如超链接、交互表单等 ） 、页面随机 
存取及字体仿真描述等特性。因此， PDF 不仅适合印刷出版， 
而且也适合电子出版，所以现在很多文档都采用 PDF 格式。 

PDF 的结构可以从文件结构和逻辑结构两个方面来理 
解。其中，文件结构是指其文件的物理组织方式，逻辑结构则 
是指其内容的逻辑组织方式。 

PDF 的文件结构（即物理结构）包括四个部 分:文 件头、 
文件体、交叉引用表和文件尾。文件头 （ Header ) 指明了该文 
件所遵从 PDF 规范的版本号，它出现在 PDF 文档的第一行 。、 
文件体 ( Body ) 由一系列的 PDF 间接对象组成，这些间接对 
构成了 PDF 文档的具体内容，如字体、页面、图像等。 

用表 （Cross Reference Table ) 则是为了能对间接对象 
存取而设立的一个间接对象地址索引表。如$是 
文件， 则可能有多个交叉索引表,而每个交叉索末尾将 
给出下一个交叉索引表的相对偏移量。文件尾 （ TrgileO ^ 明 
了交叉弓 I 用表的地址，指明文件体的根对象 （ C ^ ig ) ,还保 
存了加密等安全信息。根据文件尾提供的^息， fc » F 的应用 
程序可以找到交叉引用表和整个 PDF 文構 根对象，从而控 
制整个 PDF 文档。 

PDF 文档的结构反映了文件 f 接对象间的等级层次 
关系。 PDF 文档是一种树型^构01的根节点就是 PDF 文 
档的根对象 ( Catalog ) 。根节点 Y 有四个 子树: 页面树 （Pages 
Tree ) 、书签树（ Outline Tree ) 、线索树 （ Article Threads ) 和名字 


格式的定义是部分公开的甚至是完全不公开的。因此实现通 
用的 PDF 文档内容抽取是比较困难的。 
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文本，图片 普通数据 

图1 PDF 文本内容抽取数据流程 


文档格式抽取中还涉及到数据内容的解密和解压缩等开 
销较大的操作。为了提高内容抽取的性能，理论上只需对必 
须抽取的分段内容进行解码和解压缩,但是如果采用格式文 
档厂家的编程接口，一般情况下会对整个文档进行解密和解 
压缩，没有针对内容抽取的特定要求进行特定的解密和解压 
缩。本文实现了基于自动机理论的 PDF 文档内容抽取技术。 
2.2 建立关键字树 

PDF 文档由以下内容组成字体、文字布局、图像、 
表单、表格、多媒体页面等。,这^1容都可以抽象地表示为一 
个二元组，二元组的形式键字，操作 I ，其中操作是关键 
字定义的处理与其相体内容的动作。在抽取文本内容 
时，需要找到与内关的关键字，根据关键字所定义的动 
相关的抽¥工作。 

1 字按是否具有层次分成两类。其中,具有层 
以组织成如图2所示的树状结构，在抽取过程 
■ _分层确定的有穷自动机 （Deterministic Finite 
it & ation , DFA ) 的实现方法。在关键字组织图中，每一个 
_点的子节点都是父节点要处理的内容，而要抽取的文本内 
容位于叶子节点上 D 


作，, 





图2关键字组织 


树 （Named Destination ) 0 

2 PDF 文档内容抽取方法的设计和实现 

2.1 功能设计 

PDF 文档内容抽取是指对 PDF 格式文档进行结构分析， 
并抽取出其中重要的文本内容信息和图片信息，为以后的内 
容分析和扫描提供基础的数据。如图1所示， PDF 文档的结 
构分析主要 包括: 对二进制文档按照文档格式规范进行数据 
区域分割，形成分段 数据; 再将每段数据进行解压缩，形成普 
通数据(如果数据是加密的，还需要在解压前,对分段数据进 
行解密）；然后，对普通数据进行编码转换，形成正常编码数 
据。 

PDF 文档内容抽取技术的核心难点在于文档的格式分 
析，因为格式分析需要依据不同的文档规范，进行不同的实 
现。各个厂家为了支持新的功能，同一个格式文档的文档规 
范也不断地修改，增加新的功能。出于保密的原因，部分文档 


在 PDF 文本内容抽取的过程中，主要处理几种信 息：页 
面信息、编码解码信息、内容信息和字体信息。页面信息中的 
关键字有“ Pages ” 、“ Page ”。“ Pages ”定义了本文档中的页面 
结构，通过该关键字，可以建立起页面树。“ Page ” 关键字定义 
了文档中每页中的详细信息。编码解码信息的关键字是 
“ Filter " ,当找到该关键字时,就知道相应的内容流应该用哪 
种方法进行解码。一个内容流可能使用了多种编码，在解码 
的过程中，要按照编码的逆序来依次解码相应的内容流。内 
容信息的关键字是“ Contents " ，在一个页面信息中，如果有此 
关键字，说明本页中有文本内容，那么就需要做内容抽取的操 
作，否则可以直接忽略本页。字体信息的关键字是“ Font % 
在文本抽取中，需要通过字体信息，来确定内容的文本对象应 
该在做哪些操作之后才能将内容存储到用户可理解的文本文 
件中。 

2.3 分层构造 DFA 

本文用基于 DFA 的方法来抽取 PDF 文档中的文本信息。 
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PDF 文档是有层次结构的，利用 2.2 节建立的关键字树，通过 
分层建立 DFA (如图3所示）的方式，最终将文件中的文本信 
息抽取出来。 

图3所示的是抽取 PDF 文档信息的顶层 DFA 。 顶层 
DFA 要完成的工作是识别 PDF 文件逻辑结构中每一部分的 
开始和结束，当检测到一个部分的开始时，就调用下层 DFA 
来具体实现抽取不同内容的操作。操作完成后，返回一个命 
令通知上层 DFA 操作已完成，上层 DFA 的操作继续进行。 





图 4 文件头部自动机 


图 3 识别 PDF 文件结构每部分开始和结束的自动机 

逻辑结构中的每部分要完成的操作不同，所有在下层 
DFA 中,每一部分的操作要具体定义。图4 ~ 7是识别文件不 
同部分的 DFA 。 文件头部分主要是识别 PDF 文档的版本号 
版本不同，在解析文本信息时所要做的有些操作也不 
件体中包括了所要解析的所有内容，这些内容都是由, 
象组成。每个间接对象的格式相同,但具体内容 f &f 
到间接对象时，通过查找 I 关键字，内容 i 二元组 
要执行的操作。交叉索引表存放了本 PDF 文件中接 
对象的位置信息,通过交叉索引表，可以快速找到每一个间接 
对象。在文件尾 DFA 中，需要找到交叉索引表的%始位置以 
及加密信息。 



开一个同字符串大 
小相同的数组存储 
每个对象的位置 

0~9 字符串 


图 7 文件尾自动机 


本文用 AC ( Aho - Corasick ) 自动机 [14] 建立 DFA , 下面是建 
立识别 PDF 文件头 DFA 的过程。识别文件头的关键字是 
" % PDF -" ，相应的操作是根据 PDF 版本的不同，驱动不同的 
抽取过程。图4是状态转换图， DFA _ start 是整个 DFA 的开始 
状态，当遇到“％ PDF -” 时转到 DFA _ Head 开始状态,继续识 
别输人的字符串。如果接下来的字符串是 “1.1” ~ “1.7”， 就 
转到不同的 DFA _ Head 结束状态。 DFA _ Head 的结束状态也 
是识别 PDF 文件体的开始 状态。 图4 ~7所示的 DFA 建立过 
程的方法同图4,本文不再扩展介绍每一部分 DFA 的建立过 
程。 


基于自动机理论的抽取方法，当文档格式发生变化时，只 
需在关键字树中添加或删除一些节点，重新生成 DFA ， 而不 
需修改源程序，因此本文算法有较好的适应性。该方法把源 
文档看成一个二进制字符流，所以可以流式地处理网络中部 
分到达的数据包。对于不完整的文档,也可以通过预先定义 
好的关键字树进行分析。 

2.4 文本内容的抽取 

本文抽取 PDF 文档内容的过程主要有以下几个 步骤: 
1 ) 配置一个 I 关键字，操作1的二元组 文件; 2 ) 将二元组中的 
关键字构建成关键字树; 3 ) 将关键字树分层抽取出来，将每 
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层的所有关键字按 PDF 文件的逻辑结构划分开来，用 AC 算 
法建立不同的 DFA;4) 自动机建立好以后，就可以扫描网络 
中的数据流或者完整的 PDF 文档，来抽取 PDF 文件中的文本 
信息。图8是抽取页面中的文本信息的具体流程，其中方法 
1是非 typeO 的字型取得 Unicode 码的方法，方法2是 typeO 字 
型取得 Unicode 码的方法。具体做法详见文献[1]。 



PDF 格奴档 


文档是从计算机方面的全文数据库网站或者英文电子书中随 
机选取的，文件大小从219 KB 到1250 KB。 

实验的软硬件环境 如下： 

CPU： Intel Duo E7500 2.93 GHz 双核； 内存 ： 2. 0 GB； 
Cache： 一级数据缓存 64 KB, —级指令缓存64 KB ，二级缓存3 
MB; 操作系统: Windows 7 Professional 32位。 

3.2 实验结果和分析 

基于自动机理论的 PDF 文本内容抽取方法和开源库 
PDFBox 抽取英文 PDF 文档内容的实验结果如表1所示，抽 
取中文文档的实验结果如表2所示。实验中的中文文件来自 
于一些 p DF 版的电子书，英文文件既有 PDF 版电子书的某些 
章节,也有国外数据库中的论文。 


文件编号 文件大小 /KB 



表1英文 PDF 文档抽取结果对比 


抽取时间 /ms 


PDpox 方法 自动机方法 


^37 

141 

► 531 

187 

546 

203 

1500 

468 

9641 

2074 

58496 

8721 


2中文 PDF 文档抽取结果对比 


图 8 抽取页面中文本信息的具体流程 


抽取时间 /ms 


PDFBox 方法 自动机方法 



219 

452 

78 


323 

515 

125 

3 

468 

827 

328 

4 

1020 

1580 

281 

5 

1210 

807 

222 

6 

1250 

874 

312 


在中文和英文 PDF 文档数据集下的实验结果表明 :本文 
方法所用的时间仅为 PDFBox 方法的17% -37%，在实验对 
比表格中，本文方法所用的时间是构建关键字树、建立自动机 
和抽取文本内容三部分所用的时间和。本文方法构建的关键 
字树和自动机可以重复使用，所以在抽取网络中的 PDF 文本 
内容时,不需要重复构建关键字树和自动机,实际的处理时间 
就是扫描文件并将其文本内容抽取出来所用的时间。因此在 
处理网络中的 PDF 文档时，本文方法的处理速度会更快。 

在中文 PDF 文本内容抽取中，首先要将每页的具体内容 
和字体信息进行解码，然后通过 2. 2节所述的相应方法将十 
六进制表示的字符信息转换成可显示的字符，并存储到文本 


3实验结果与分析 


文件中。 


将基于自动机理论的 pdf 文本内容抽取方法和 PDFBox 
方法进行 了对比测试。 Apache PDFBox ( http : //pdfbox. 
apache, org/) 是 Java 实现的开源的处理 PDF 文档的类库，它 
可用来创建 PDF 文档、处理已有的文档以及从文档中抽取内 
容。 PDFBox 还包括很多命令行实用工具， PDFBox 是抽取 
PDF 文档内容时最常使用的一个类库。 

3.1 实验数据和环境 

本文选取了两类测试 数据： 中文 PDF 文档和英文 PDF 文 
档 o 本文随机地从不同的中文电子书中选取了文件大小不同 
的中文 PDF 文档，文件大小从 139 KB 到 48500 KB; 英文 PDF 


表3本文方法抽取英文 PDF 文档内容时各部分所用时间 ms 


文件 

编号 

预处理 

时间 

解码 

时间 

输出文本 
信息的时间 

总用时 

4 

109 

218 

125 

468 

5 

967 

998 

190 

2074 

6 

3775 

3 822 

124 

8721 

7 

998 

1264 

374 

2652 


从表3可看出，在英文 PDF 文本信息抽取中，因为英文 
PDF 文档的字符集大多数采用 Adobe 公司提供的14种标准 
字符集,这些字符不需要查询字体信息就可以直接输出，所以 
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处理时间主要花在解码上。本文方法可以通过分析 PDF 文 
档中哪些内容与抽取文本信息无关来尽量减少不必要的解码 
时间，从而加快处理速度。 

4结语 

随着 PDF 格式被国际标准化组织 ISO 接纳为国际标准， 
更多电子文档格式将采用 PDF 格式，网络中会有越来越多的 
文件采用 PDF 格式进行传输。为了对网络中以 PDF 格式传 
输的内容进行分析过滤，必须先将二进制的 PDF 文档中的内 
容抽取出来。基于以上需求，本文提出并实现了基于自动机 
理论的 PDF 文本内容抽取方法。该方法可以快速、准确地将 
PDF 文档中的文本信息抽取出来。本文用预定义的关键字构 
建 DFA ， 通过精确串匹配算法将相应的关键字查找出来，然 
后用与关键字相对应的操作处理其中的内容。该方法有较好 
的扩展性和自适应性，当 PDF 文档的格式发生变化时，只需 
修改 i 关键字,内容1二元组,并重新构建 DFA 就可以将新的 
内容加人原有的程序中。当需要对其中的内容进行在线分析 
和处理时，就可用本文的方法先将内容抽取出来。本文只实 
现了对几种简单字体的文本信息抽取，未来的研究方向是支 
持所有字体和版本的 PDF 文本内容抽取，并且将匹配关键字 
的方法扩展到正则表达式。 
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利用本文算法，在 VC ++ 6. 0版本的编译环境下使用64 
位整数类型 __ int 64, 可以将模的范围从31位的整数提高到 
62位(考虑补码中符号要占一位） [6] 并通过了大量测试。该 
算法也在整数分解的 PoHard p -1 算法、求离散对数的小步大 
步算法等数论算法中得到了实际使用。如果需要更大的 
模的模乘运算，则需要使用高精度的四则运算。 
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抵御 MIX 重放攻击的混合结构消息报文机制 
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摘要： 对 MIX 的重放攻击进行研究，并提出一种抵御重放攻击的 MIX 混合结构消息报文机制。混合报文机制 
利用通用重加密的概率加密、语义安全特性抵御重放攻击，利用层级加密的认证特性实现消息的完整性保护，同 
时引入对称加密机制提高效率。分析表明，混合结构消息报文机制可以在保证安全性与效率的前提下有效抵御重 
放攻击。 
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Hybrid-structured onion scheme against replay attack of MIX 

SHI Jin - qiao , FANG Bin - xing , GUO Li , WANG Li-hong 

(Research Center for Information Intelligence and Information Security, Institute of Computing Technology, 

Chinese Academy of Sciences, Beijing 100190, China) 


Abstract: Replay attack against MIX was studied and a hybrid-structured onion scheme of MIX against replay attack 
was proposed . In hybrid scheme , probabilistic encryption and semantic security of universal re-encryption were utilized 
to protect MIX against replay attack , and the authentication property of layered encryption was utilized to protect integ ¬ 
rity of messages . Meanwhile , symmetric encryption was imported to improve efficiency . Analysis shows that the hy ¬ 
brid-structured onion scheme can resist replay attack with guarantee of security and efficiency . 

Key words: anonymous communication ; MIX ; re - encryption ; hybrid-structured 


i 引言 

互联网的迅猛发展在给人们带来便捷的同时 
也带来了信息的安全与隐私问题。匿名是指保护用 
户身份信息的隐私，它是很多网络应用的基本需 
求。然而，当前的互联网协议并不提供对匿名性的 
支持。因此，网络匿名通信技术作为一种保护网络 
用户隐私的基本手段，得到了学术界、企业界甚至 
国家安全部门的普遍关注。 

网络匿名通信技术的研究大约始于1981年， 
David Chauni 提出了混合 ( MIX ) 匿名机制 [1] 成为此 


领域的开创性工作。 MIX 的基本思想非常简单，接 
收一定数量的消息，通过加密或填充等手段修改消 
息的外观，通过延迟或重排序等手段来修改消息的 
顺序，从而以一种隐藏输入输出对应关系的方式输 
出消息，保证攻击者无法准确推断通信参与者的对 
应关系。如今， MIX 已经被应用到大量的实用匿名 
通信系统中，如匿名邮件系统 （ Babel [2] 、 
Mixmaster [3] 、 Mixminion [4] ) 、 匿名连接系统 
( MorphMix [5] 、 WebMixes [6] 等），是应用最广泛的 
匿名机制。 

重放攻击 (replay attack ) 是一种针对 MIX 的简 
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单有效的主动攻击。 MIX 的消息报文机制是指 MIX 
网络中传输消息的组织结构。此前提出的 MIX 消 
息报文机制主要有层级加密和重加密2种，在抵御 
重放攻击时各有优缺点。本文在总结分析现有不同 
报文机制各自特点的基础上提出安全性更强的混 
合结构消息报文机制。 

2 MIX 的重放攻击与消息报文机制 
2.1 MIX 的重放攻击 

重放攻击是一种针对 MIX 的十分有效的主动 
攻击。重放攻击指的是攻击者将待追踪的消息重新 
发送进入 MIX 网络，以追踪特定消息传输路径的 
一种攻击。如果 MIX 节点对同样的消息进行相同 
的操作，2条相同的输入消息会引起在输出端出现 
2条相同的消息，由此攻击者可以确定待追踪的消 
息，破坏匿名保护。成功进行重放攻击的前提 如下： 
攻击者可以插入2条相同的消息且消息没有被 MIX 
识别并 处理； 攻击者可以在 MIX 的输出端识别出 
其插入的2条相同的消息。在此前研究中所提出的 
抵御重放攻击的方法主要是破坏攻击者成功进行 
攻击的前提条件。相对应地，抵御措施的基本思想 
也可以分为2 种： 防止或检测攻击者插入2条相同 
的 消息； 防止攻击者在输出端识别出2条相同的消 
息。现有不同消息报文机制的 MIX 采用不同的抵 
御思想。 

2.2 层级加密机制及其安全性分析 

David Chaum 提出的原始 MIX [1] 以及 
Mixmaster 、 Mixminion、SG MIX [7] 等都是采用层级 
加密消息报文机制。发送者 *5 期望通过 MIX 服务 
器5*1，5 2 ,… Ai 将消息 w 发送给接收者凡其中服务 
器 5*,+ 对应的密钥为 ( y ,+， x ,+) 并发布公钥％+。发送者构建 
一个形如洋葱 ( onion ) 的层级加密消息报文 P 并发给 
5 i ， P = E Xt ( S 2 , E x ^ {■■■, E x ： i ( R , m ))) (其中尽表示利用 

非对称加密算法对消息 m 加密所生成的密文，其解 
密密钥为 X )，&获得消息后，利用私钥 xj ? 密获得 
下一跳地址&后，将加密的剩余消息发送给&。路 
径上所有 MIX 服务器全部按照这种方式工作，直 
到密消息，获得接收者地址以及消息内容 w , 
将消息内容 m 发送给 R , 完成消息传输。 

这种层级加密消息报文机制的消息组织形式 
类似于洋葱，保证了只有对应的 MIX 服务器才能 
利用自己的私钥解密消息，获取自己下一跳信息， 
缺点是消息的长度会随着路径的增长而增加。 


在 David Chaum 提出的 MIX 思想中 [1] ,抵御重 
放攻击的方法称为检查丢弃体制， MIX 保存历史消 
息记录，如果输入消息在历史记录中则丢弃，从而 
防止攻击者插入2条同样的消息。但这种方法由于 
需要大量存储历史记录而存在存储问题、效率问 
题，并且攻击者可能获取历史记录，破坏历史消息 
的安全性。为解决上述问题 ， David Chaum 提出周 
期性地更换公钥信息的方法，过期消息简单丢弃即 
可， Mixminion 采用的就是这种方法，但不断更换 
公钥在大规模分布式应用环境中会带来密钥更新 
等实际问题。 Mixmaster 存储历史消息 ID 列表， 
定期删除，但攻击者只需等待历史记录过期后再 
进行重放攻击即可 。 SG MIX 在消息中加入时间 
戳信息，每条消息只有在特定轮次到达才会有 
效， MIX 只需保存时间窗口内消息历史记录，但 
需要严格时间同步。 

2.3 重加密消息报文机制及其安全性分析 
2.3.1 ElGamal 与通用重加密技术 

为解决层级加密消息报文机制存在的消息长 
度随路径增长而增加的问题， Park 等提出一种基于 
重加密消息报文机制构建的 MIX 系统 [8] ，中间 MIX 
服务器不再对消息进行解密，而是对消息进行重新 
加密后发送。这种重加密采用的是 ElGamal 算法 [9] , 
其密文长度始终是明文长度的2倍，因此消息长度 
不会随着路径的增长而增加。 

ElGamal 是一种公开秘钥体制，其安全性依赖 
于有限域上离散对数的难度。为叙述简洁，在后文 
中省略模运算 ， mod 将简写作 g x 。 ElGamal 算 
法具有一些有用的特性。首先， ElGamal 算法是一 
种概率加密算法，对于同一消息加密2次会生成2 
个不同的密文。同时，在私钥未知的前提下，攻击 
者无法知道2条密文是否由同一密钥加密所得，这 
种属性称为密钥隐私 (key privacy )_。 其次，在假 
定 DDH(decisional diffie - hellman ) 问题在群 G 上是 
困难的前提下， ElGamal 加密是语义安全的，即攻 
击者无法判断2对密文是否对应同一明文。因此， 
给定一对密文 ( a ， 勿，可以利用加密公钥: v 以及随 
机选择的 P 对密文进行重加密，生成新的密文对 
、_={0^，时、。 易知，所得的密文与原始密文对 
应同一明文，但在不具备解密密钥的前提下，攻击 
者无法知道这2对密文的对应关系。 

Park 体制在重加密的过程中需要知道消息加 
密时所使用的公钥。 Golle 等对上述重加密体制进 
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行了扩充，重加密过程不再需要消息加密时所使用 
的公钥，这种体制称为通用重加密 （ URE , universal 
re - encryption ) 也称作 Golle 体制，其描述如表 

1所示。通用重加密体制使得密文扩展为明文的4 
倍，效率是标准 ElGamal 加密体制的一半。 

表1 通用重加密方案 

密钥创建 p ： 素数，可由一组用户共享 
g ' g < P ’ 可由一组用户共享 
X :私人密钥， x<p 
y ： 公开密钥 ， y = g x 
加密 输入消息 m ， 公钥;； 

随机选择加密参数 r = 纟与 p -1 互素 

输出密文 

C = [(or 0 , y 5 0 );(« l ,^ 1 )] = [㈣\ 0 ); (Z ， g* 1 )] 

解密 输入 C = [( a 。， 贴 (《,, 則，对应的公钥 y 

计算 m 0 =« 0 /^ 0 x , w , = aj /^ 

若》?1=1，则输出 w 0 = w ， 否则解密失败，输出丄 
重加密输入 

随机选择加密参数 / = ( X ， k ;), 与 P ~1 互素 

输出密文 

匚'=[«爲) ; (<，^)] = [(»。4，爲摩) ; (<'’,摩)] 

容易验证重加密后生成的密文 C 1 仍然对应着 
同一消息。由于 ElGamal 密码机制的语义安全特性， 
攻击者在未知解密密钥的前提下，无法确认密文 C 
与 C ’ 的对应关系。又由于 ElGamal 的概率加密特性， 
对于同一明文 w 加密2次生成的密文 C 与 C 1 不同， 
因此重加密技术可以用来抵御重放攻击。 

基于通用重加密技术， Golle 提出一种 MIX 通 
信网络的构建方法并引入对称加密，设计混合通用 
重加密体制 [1<)] ,解决通用重加密的效率问题。然而， 
Golle 体制无法在消息报文中携带路由信息，因此 
仅适用于确定路由的网络。 

2.3.2 通用重加密消息报文机制 

通用重加密技术可以被用来抵御重放攻击，但 
是无法在消息中携带路由信息，限制了它的广泛应 
用，而通用重加密消息报文 （ URE - Onion ) 机制 [11] 
巧妙地解决了这一问题。 URE - Onion 机制假设的威 
胁模型为控制所有链路以及部分服务器的攻击者。 

URE-Onion 机制中的路由信息包含在若干相 
互独立的密文块中。中间服务器对所有密文块进行 
部分解密获取路由信息，对消息进行重加密后发送 
至下一跳地址。令 x ,+ 代表服务器&的私钥， _ y ，为对 
应 ElGamal 公钥， g 是公共参数， UREJm ：) 表示利 


用通用重加密技术对消息 m 加密所生成的密文，解 
密密钥为 x ， URE I|+:t2+ _„ +:r 表示解密密钥为 A + 

x 2 + … + X / 的密文，消息格式为 [( a 。， 爲= 
…)\ g * 0 )， (0^2• ••少 /”，/..)]。 URE-Onion 
运行过程如下。 

发送者首先构建一条到达目的主机的匿名路 
径 S U S 2 ,-, S M ，其中&，&，••• Ai 为中间 MIX 服务器， 
& +1 为目的主机。然后发送者生成包含 /1+1 个密文 
块消息，其中前个密文块包含的是馬所 
对应的下一跳路由信息，最后一块为消息的内容部 
分。最后，发送者将密文块的顺序随机打乱，后发 
送至 

URE, (5 2 ) ； ure, ]+ ^ (S 3 ),-, ure_„ (u ， uriv.. 〜㈣ 

匿名路径上的第 夕1 台 MIX 服务器馬接 

收到消息后进行如下操作后转发出去。 

1) 部分 解密： 将消息体中的每一块密文 
[ K ^ oX (« nA )] 替换为 [( a 。/ 泣，成 4)] 。 

2) 重 加密： 随机选择一对重加密因子(知 太)， 
对部分解密后生成的密文按照表1的方法进行重加 

山。 

3) 随机 打乱： 所有密文块的顺序随机打乱。 
容易验证，匿名路径上的每台 MIX 服务器对 

消息部分解密操作后，会从某一密文块中获得下一 
跳地址。目的服务器 & +1 对消息进行部分解密后会 
得到明文消息内容 m , 完成消息的匿名传输。 

在 URE - Onion 机制中，消息每经过一台 MIX 
服务器都会被重新加密一次。只要匿名路径上存在 
一台“诚实”的服务器，2条同样的消息经过此服 
务器重加密后即会变得不可识别与对应，因此可以 
抵御重放攻击。此外，对密文块的重新排序、删除 
与修改无助于获取消息对应关系 [11] 。 

URE - Onion 机制存在效率与安全性的问题。 
URE - Onion 机制中所采用非对称加密，效率较低， 
仅适合传输短消息。 URE - Onion 机制还存在安全问 
题 [12] 。假设攻击者具有观察和控制网络链路的能 
力，并且控制一台恶意服务器，则其可以利用通 
用重加密的密文可延展性生成攻击密文块替换原 
有密文块，导致消息在传输过程中不断被重定向 
到恶意服务器上，直到最终目的被泄露。攻击过 
程如下。 

首先，利用通用重加密的密文可延展性，给定 
一个密文 URE x ( w ), 攻击者可以生成相关密文。 
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URE r (m) = [(my k ° ， g* 。 );(/' ， 〆' )] 

URE I ( m ， ) = [(«/(/' )W )%((/' )W f )] 

URE % ( w ) = l ( my k °( g k ° T a ，/。 );(/( 〆 ')' 〆 ')] 

其次，匿名路径上的 MIX 服务器充当解密预 
言机 (decryption oracle ) [13] 的角色 。 MIX 服务器 S , ■接 
收到由若干个重加密密文块所组成的消息后，会利 
用其自己的私钥 X, +对所有的密文块进行部分解密， 
如果解密成功，会对所有的密文块进行重加密后发 
送给下一跳服务器& +1 。 

因此，对于客户端发出的消息，攻击者将每一 
个密文块替换为3 部分； 第1部分的目的是将消息 
重路由至攻击者控制的恶意服务器 A ; 第2部分为 
对此密文块用恶意服务器的公钥再次加密生成的 
相关 密文； 第3部分为一个标记 I ,用来在同时追 
踪多条消息时区分不同消息 

URE ^. m ，⑶， URE #... 柯 d )， URE #... 押 ( i ) 

匿名路径上的 MIX 服务器&无法察觉到消息 
已经被更改，仍然对消息进行部分解密操作。部分 
解密后的消息将会包含如下部分内容 

URE la (5,. +] ), URE 〜( i ), …。因此 ，5；+ 会把恶意服 

务器3当作下一跳地址，重加密后的消息会被重定 
向到那里。恶意服务器 J 会利用自己的私钥解密 
消息，获得下一跳地址 5；. +1 与标签 I 。随后，攻击 
者可以将消息发送给& +1 ,重复上面的操作，直至 
发现消息传输的目的服务器。 

3混合结构消息报文机制 

3.1 基本思想 

通过上面的分析可以看出，基于重加密思想的 
消息报文机制可以抵御重放攻击。但 Park 体制和 
Golle 体制存在路由信息的限制。 URE - Onion 机制 
虽然携带路由信息，但存在安全问题。这种安全问 
题主要来自于如下 几点。 首先，应用通用重加密技 
术获得的密文具有可延展性，并且公钥信息就携带 
在密文之中，攻击者可以利用这些信息来构建与之 
相关的密文。重加密语义也使得无法在消息中添加 
冗余部分进行完整性校验。其次， URE - Onion 机制 
的密文块间没有紧密地联系在一起，且没有进行完 
整性保护，存在替换密文块的可能。 MIX 服务器在 
攻击过程中充当解密预言机的角色，攻击者能够利 
用其对消息进行解密和重定向。最后， URE-Onion 


机制无法与对称加密机制相结合，存在效率问题。 
事实上，通用重加密的过程本身就是在构建一个与 
原有密文相关联的密文。而基于层级加密的消息报 
文机制可以能够保证只有对应服务器才能解密获 
取路由信息，对服务器进行认证。 

本文提出一种结合现有机制优点的混合结构 
消息报文 ( HS - Onion , hybrid-structured onion ) 机制， 
利用通用重加密的概率加密、语义安全特性来抵御 
重放攻击，利用层级加密的认证特性实现消息的完 
整性保护，同时引入对称加密机制提高效率。 

3.2 HS - Onion 机制描述 

混合结构消息报文机制的目标是在保证安全 
性与效率的前提下抵御重放攻击。首先，在不同消 
息块之间引入链式加密机制，使得攻击者无法随意 
替换密 文块； 其次，针对路由信息进行双重加密保 
护，使得恶意攻击者即使获取密文块的内容也无法 
获得路由 信息； 最后，引入对称加密机制，提高消 
息处理效率。 

HS - Onion 机制仍然假设攻击者控制网络链路 
以及部分服务器，但消息传输目的不在控制之内。 
假设每一台 MIX 服务器&生成2对密钥， （ y ,+， x ,) 和 
( y , •'，%,+')，并发布公钥部分。其中 ，= g Xi 为 ElGamal 

加密公钥，： V ,'为另外一种非对称加密算法的公钥， 
这里假设这种非对称加密算法在选择密文攻击下 
是安全的，这样的公钥加密算法是实际存在的。 C ? 
为一个共享的随机字符串产生函数，以输入参数 r 
为种子生成随机字符串 G ( r )。 URE / w ) 表示利用通 
用重加密技术对消息 m 加密所生成的密文，解密密 
钥为 x 。 E x < w ) 表示利用前面所选定的非对称加密算 
法对消息 w 加密所生成的密文,解密密钥为 
表示利用对称加密算法对消息 w 加密所生成的密 
文， 密钥为 I 所有加密算法都是系统的所有参与 
者所共知的。 

发送者首先建一条到达目的主机的匿名路径， 
其中&，&，… Ai 为匿名路径中间 MIX 服务器， & +1 
为目的主机，然后发送者生成包含 A +3 个密文块的 
消息，其中前个密文块包含的是 5} 所对 
应的下一跳路由信息以及不同密文块之间的链接 
信息，形式为 UREq ^ taglE ^+ A .)) ，其中&为随 

机密钥， MM ) = + 21 m 心 A = 0 。 tag 为一个 

约定好的字符串，中间 MIX 解密获得此字符串表 
明对此密文块解密成功。第 /1+1 块为 
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URE x ( u +1) ( tag | E 心⑷） ，女为对称加密的密钥，第 A + 2 
块为 URE AWl +1) ©。 其中第 / l + l 块和第 A +2 块采用同 

一密钥加密，但加密参数为随机选择的不同值，2 
块密文块无法相互对应，最后一块为 e ^ m ) o 按照此 
方法，发送者生成的消息格式如下（发送者将前 A +1 
块密文的顺序随机打乱后发送给&)。 

URE。(tag |^; (心尺 ))， URE wJ；i (tag 1^0 3 ， RJ )， …， 
URE MMi ( ta g | E 4+, 為 ))，URE 即 ，袖 ( tag | E 4+i (左 ))， 
UREmu+dWa ⑽ 

匿名路径上第夕1< / 台 MIX 服务器馬接 

收到消息后执行如下操作，其中部分解密与重加密 
的方法与前面介绍的 URE - Onion 机制相同。 

1) 利用 ElGamal 私钥 x ； 对前 A +2 块密文进行部 
分解密，从其中的一个密文块中得到 
taglE ^ (^!，^,.) ' 其中， tag 表示解密成功，获得与 

之对应的加密信息，称服务器 5) 解密成功的块属于 
Sy 的块。 

2) 利用私钥 xj 解密 tag 卜/ , R ) ，获得路由 

信息 S J +1 以及随机密钥&+。 

3) 利用随机密钥曷对除解密成功及消息内容 
对应的密文块之外的所有密文块进行部分解密。 

4) 随机生成种子利用随机字符串产生函数 
G 生成随机字符串 G ( rj )， 将其与最后一块进行异或 

作： ㊉ … ㊉ G (~.) 。 

5) 利用经过第 1) 步部分解密与第 3) 步部分解 
密后生成的第/1+2块密文 URE A . u +1/ l +1) TO 生成密文块 

URE ^^^ tagl ^.)' 并替换属于它的密文块:。其中， 

tag ’ 为事先约定好的字符串解密获得的此字符串表 
明解密成功，且此密文块中保存的是随机字符串产 
生函数的种子。 

6) 对前 A +2 块密文块进行重加密。 

7) 将前 A +2 块密文块的顺序随机打乱后将消 
息转发给下一跳地址。 

接收 MIX 服务器 & +1 对消息进行部分解密后 
会得到 A 个种子 n ， r 2 , …， q 、 E & ⑷、1以及 

ejw ) ㊉ (5(^) ㊉ … ©(7(4) ， 其中种子的顺序是打 
乱的。 & +1 首先利用 A 个种子以及随机字符串产生函 
数 G 产生/ I 个随机字符串与消息内容所对应的密文 
块进行异或操作，得到然后利用自己的私钥 

4 +1 解密获得对称密钥 L 解密 e / O 获得 


消息 m ,完成消息传输过程。 

3.3 效率及安全性分析 
3.3.1 效率分析 

HS - Onion 机制中每台 MIX 服务器需要共享2 
个公钥，每收到一条消息后，需要进行 2 A +4 次对 
密文块的非对称加密的解密操作（第1 )、2)、 3) 步）， 
A +3 次对密文块的重加密操作（第5)、 6) 步） ，一 
次生成随机字符串并进行异或操作（第 4) 步）。最 
后一台 MIX 服务器还需要生成 A 个随机字符串异或 
后再进行对称加密的解密操作。原有的 URE-Onion 
机制中，需要进行2/1+2次对密文块的非对称加解 
密操作。 HS - Onion 机制在每一个中间步骤上对路由 
信息的处理上都进行/1+5次非对称加密解密操作。 
但 HS - Onion 机制中对于消息内容部分的操作不需 
要非对称加密解密操作。因此，在传输消息内容长 
度比较大的时候，具有效率优势。 

3.3.2 安全性分析 

HS - Onion 机制仍然能够抵御重放攻击。消息的 
前 A +2 块密文在经过每一个 MIX 服务器时都会被重 
加密，而消息内容所对应的密文块每次都会异或上 
一个随机生成的字符串，因此，只要匿名路径上存 
在着一个不被攻击者控制的 MIX 服务器，相同的 
消息处理2遍后会变成2个不可识别、不可关联的 
消息，从而抵御重放攻击。 

Danezis 的替换攻击对于 HS - Onion 机制是无效 
的。在改进的 URE - Onion 机制中，不同的消息块之 
间由随机密钥 足联 系。只有此前的 MIX 服务器都 
正确地对消息进行处理，获得正确的随机密钥并进 
行部分解密后，后继的 MIX 服务器才会收到正确 
的消息。而所有的随机密钥与路由信息均由另外一 
种公钥加密算法保护，只有拥有相对应的私钥的 
MIX 服务器才可以对此解密获取路由信息与随机 
密钥。尽管在新的机制下，攻击者仍可能通过 
Danezis 的替换方法获得第一块通用重加密密文块 
所加密的内容。但首先前 A 个密文块的顺序会被随 
机置乱，因此攻击者无法知道哪一块才是待替换的 
第1块密文块。其次，即使攻击者成功对第1块密 
文块进行替换仍无法获得下一条地址以及随机密 
钥，因为它没有对应的私钥， HS - Onion 机制的认证 
机制防止攻击者非法获取路由信息。 

内部攻击者试图生成特定的随机种子^以识 
别消息也是行不通的，因为只有消息传输的目的 
MIX 服务器才能读取这些随机种子，而它不在攻击 
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者的控制范围之内。 

4结束语 

MIX 重放攻击的抵御方法研究是 MIX 设计中 
一个比较重要的内容。然而，层级加密消息报文机 
制下的抵御措施存在存储问题、效率问题及安全性 
问题。通用重加密思想可以在抵御 MIX 的重放攻 
击时不会存在上述问题，但是 ElGamal 密文可延展 
性也带来了额外的安全问题。同时，基于通用重加 
密思想的 URE - Onion 机制也存在着效率问题。 

本文提出一种混合结构消息报文机制以抵御 
重放攻击。这种机制既利用 ElGamal 密文可延展性 
带来的抗重放攻击特性，又引入认证机制，防止攻 
击者进行替换攻击，非法获取路由信息，从而摒弃 
密文可延展性带来的安全问题。另外，本文提出的 
混合结构消息报文机制尽管在密钥存储、发布以及 
消息处理上引入开销，但引入对称加密机制，因此 
在处理长消息报文时会有优势。 
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Abstract Multiple string matching algorithms play a fundamental role in many network security 
systems, such as intrusion detection and prevention systems, anti-virus systems, anti-spam systems, 
firewall, etc. It has been observed that the memory space usage and cache locality of automata are 
critical factors affecting multiple string matching algorithms’ searching speed. As the pattern set size 
grows larger and larger，classical multiple string matching algorithms suffer from great performance 
degradation because of the massive storage usage of string matching automata. The authors propose 
optimization strategies for the classical string matching algorithm SBOM to reduce its automata size 
and improve its cache locality, which results in a great promotion in searching speed. More 
specifically, the Factor Oracle of SBOM algorithm is first replaced with a suffix tree structure, and 
then the rarely accessed automata nodes are removed through the pruning method to reduce suffix tree 
to nearly linear space complexity, and finally the pruned suffix tree is represented with double-array 
trie structure to compress its memory space. Compared with SBOM, this algorithm can greatly reduce 
memory usage and improve searching speed. Experiments on random data sets show that the proposed 
algorithm uses memory less than 5 % of SBOM and achieves 100 % performance improvement over 
SBOM algorithm. The proposed algorithm is especially suitable for high-speed online pattern 
matching. 

Key words network content filtering ； multiple string matching ； suffix tree ； double-array trie ； 
automata compression 

摘要 多模式串匹配算法是网络内容过滤系统的核心技术之一.自动机的存储空间大小和 Cache 性能 
是影响多模式串匹配算法速度的关键因素.随着模式串规模的扩大，自动机的巨大存储开销导致现有的 
串匹配算法性能大幅度下降.从压缩存储空间以提高 Cache 命中率的思想出发，提出了一种对经典 
SBOM 算法的优化策略，它用 Suffix Tree 代替 SBOM 算法中的 Factor Oracle 结构，同时用剪枝的方法 
将 Suffix Tree 降低为近似线性的空间复杂度，然后用双数组 Trie 表示之，以压缩存储空间.与 SBOM 
算法相比，改进算法不仅能够有效地节省存储空间，而且显著地提高了串匹配的速度，非常适合于在线 
高速匹配的应用环境. 
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10 _4 x Pattern Number 

Fig. 1 Relationship between searching speed and 
pattern set size for 3 classical string matching 
algorithms ， i. e. ， AC, WM, and SBOM. Pattern set 
size varies from 1000 to 50000. 

图 1 三种经典串匹配算法 （ AC ， WM ， SB()M ) 的匹配速 
度与模式串个数的关系（模式串个数从 1000 〜 50000) 


KMP [ 2] ， Aho-Corasick ( AC ) [ 3 ]以及基于位并行的 
Sluft - And 和 Shift - Or w . 后缀搜索是从后向前逐个 
读人文本字符，搜索文本和模式串的最长公共后缀， 
由于可以跳过部分文本字符，所以这类算法可以达 
到亚线性的平均时间复杂度，其代表算法包括 
Boyer-Moore ( BM ) [5] ， Wu-Manber ( WM ) L6 」• 子串 
搜索是在搜索窗口内搜索既是窗口中文本的后缀、 
同时也是模式串的子串的字符串，这类算法同样可 
以达到亚线性的平均时间复杂度，其代表算法包括 
SBDM m ， SBOM C8] , LDM [9] 和 BNDM Cl0] . 

自动机是串匹配算法的主要数据结构，通常以 
状态转换表或者平衡二叉树的方式表示.为了获得 
更紧凑的表示形式，前人提出了很多有效的解决方 
法，包括 Tarjan [11] ， Fredman [12] ， Galli [13] ， Dencker [14] ， 
Kiraz [15] ， Aoe [16] ， Mizobuchi [17] 等等 .. 此外，在优化 
串匹配自动机的大小方面也有一些富有启发性的工 
作： Aoe [18] S 双数组 Trie 结构来表示 AC 的自动 
机； Norton [19] 提出用 Band Row 的方法来优化 AC 
自动机，获得了 17%的性能 提升； 在硬件实现串匹 
配方面， Tuck C 20] 使用位图压缩 （bitmap 
compression ) 和路径压缩 (path compression ) 来压 
缩 AC 自动机.尽管在自动机的表示方面有大量的 
工作，但是如何在获得紧凑的表示形式的同时保持 
快速的状态转移速度，仍然是一个巨大的挑战. 

经典的串匹配算法在众多应用中取得了巨大的 
成功，但是随着模式串集合规模的扩大，这些算法的 
性能下降很快，极大地限制了它们的应用范围.如图 
1中所示，经典的串匹配算法在5000个模式串以内 

250 


串匹配是计算机研究领域的一个经典问题，是 
许多应用系统的核心技术之一.在现实生活中，串匹 
配技术应用十分广泛，其应用领域包括内容过滤、病 
毒检测、信息检索、计算生物学等等.在过去30年 
中，前人已提出了许多非常有效的算法，并且在现实 
应用中取得了巨大的成功.然而，近年来，随着一些 
新的网络应用（例如 NIDS 、网络流处理）的出现，经 
典的串匹配算法面临着巨大的 挑战： 随着模式串集 
合规模的增大，经典的串匹配算法的性能急剧下降, 
这促使我们重新审视这个古老的问题，并设计适合 
大规模模式串的多模式串匹配算法. 

在影响串匹配算法性能的诸多因素中，存储空 
间和算法的 Cache 性能占据着越来越重要的地位. 
这是因为自动机是串匹配算法的主要数据结构，随 
着模式串集合规模的增大，巨大的存储空间导致了 
很差的 Cache 局部性，从而降低了算法的匹配速度. 
从这个事实出发，本文提出了一种针对经典 SBOM 
算法的空间优化策略，它使用 Suffix Trie 代替 
SBOM 算法中的 Factor Oracle 自动机，以此作为识 
别模式串子串的数据结构，同时采用剪枝的方法降 
低 Suffix Trie 的空间复杂度，然后用双数组 Trie 表 
示之以减少存储空间.实验结果表明，相比于 
SBOM 算法，它不仅能够有效地节省存储空间，而 
且显著地提高了串匹配的速度，非常适合于在线高 
速匹配的应用环境. 

文中的所有实验是在如下环境中 进行 ： AMD 
Athlon ( TM ) 64 X 2 dual core processor 3600 + 
2. 00 GHz , —级指令 Cache 为 64 KB , —级数据 
Cache 为 64 KB , 二级 Cache 为 512 KB ； 512 MB 内 
存 ； Linux AS 4. 0 操作系统.如未特殊说明，实验中 
的文本和数据均随机生成，字符集大小为256,模式 
串长度为 8. 

文中采用记号的意义如下.模式串集合，模 
式串个数记为 r =\ P \ ，最短模式串的长度记为= 
mm { || pe _ P } ; ： T = W „ : 文本字符串，》是文本 
的 长度; I ：:模式串和文本的字符集. 

1相关工作 

目前，用来进行串匹配的算法不下几百种.根据 
文献 [1] 的分类方式，大部分串匹配算法可以归为3 
大类：前缀搜索 （prefix searching ) 、后缀搜索 （suffix 
searching ) 和子串搜索 （factor searching ). 

前缀搜索是从前向后逐个读人文本字符，搜索 
文本和模式串的最长公共前缀，其代表算法 包括: 



sdgs/p93dsbo.sLPJB9s 
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Fig. 3 Relationship between cache loss rates and 
pattern set size for 3 classical string matching 
algorithms, i. e. , AC, WM, and SBOM. Pattern set 
size varies from 1000 to 20000. 

图 3 三种经典串匹配算法 （ AC ， WM ， SBOM) 的 Cache 
Loss Rate 与模式串个数的关系（模式串个数从 1000 〜 
20000) 

综上所述，对于大规模模式串集合来说，串匹配 
算法的存储空间和 Cache 局部性是影响串匹配算法 
性能的主导因素.因此，压缩串匹配算法的自动机大 
小，改善数据结构的局部性是优化串匹配算法性能 
的一个重要途径.基于这种思想，本文提出了一种从 
存储空间方面优化经典 SBOM 算法的策略，实验结 
果也证明了该方法的有效性. 



的 Cache Miss Rate 与模式串个数的关系.我们可 
以看出，随着模式串规模的增加，串匹配算法的 
Cache Miss Rate 也急剧增加.更进一步，对于基于 
自动机的算法 （ AC , SBOM ) 来说，二级 Cache 是影 
响算法性能的 关键； 而对于基于查表的算法 （ WM ) 
来说，一级 Cache 则占据主导因素.这是因为基于自 
动机的算法耗用的存储空间很大，往往超出二级 
Cache 的大小，因而二级 Cache 对算法的影响比一 
级 Cache 更为 明显； 基于查表的算法则不然，其散列 
表通常可以完全载人二级 Cache ， 但仍然大于一级 
Cache 的大小，由于对散列表访问的随机性，这类算 
法对一级 Cache 的大小非常敏感.图3反映的是一 
级 Cache 和二级 Cache 分别对串匹配算法性能的影 
响幅度.我们同样可以看出，对于基于自动机的 
AC 、 SB 0 M 算法，二级 Cache 的影响幅度远远大于 
一级 Cache 的 影响； 而对于基于查表的 WM 算法， 
一级 Cache 则占据主导地位. 

♦ L 1 Cycle Loss Rate-AC + L2 Cycle Loss Rate-WM 

• • L2 Cycle Loss Rate-AC + L1 Cycle Loss Rate- SBOM' 

+ LI Cycle Loss Rate-WM t L2 Cycle Loss Rate-SBOM 


表现良好，但是当模式串个数超过15000时，这些算 
法的速度就下降得很低了.因此有必要对这些算法 
进行更加深人的分析和研究. 

2 Cache 对串匹配算法性能的影响 

在影响算法性能的诸多因素中，除了算法本身 
的时间复杂度，存储空间和算法的 Cache 性能也是 
一个非常重要的影响因素，这一点在串匹配算法中 
尤为明显.这是因为自动机是串匹配算法 （ AC ， 
SBOM ) 主要的数据结构，当模式串规模较小时，算 
法的存储空间和 Cache 大小相当，因而能够保证自 
动机的大部分数据结构常驻于 Cache 之中，从而保 
持了较高的 Cache 命 中率; 随着模式串规模的扩大， 
自动机的存储空间也越来越大，是 Cache 大小的几 
十倍乃至上百倍， Cache 中能够缓存的数据结构只 
占自动机的很小一部分，大部分的数据访问都需要 
从内存中加载，由于 CPU 对内存和 Cache 的访问速 
度相差一个数量级，这就极大延迟了指令对内存数 
据的读写时间，降低了算法的匹配 速度； 随着工艺的 
发展， CPU 和内存之间的性能差异越来越大 ， Cache 
命中率的小幅度降低都可能导致算法速度的大幅度 
下降 • 

图2是3种经典串匹配算法 （ AC ， WM , SBOM ) 


10~ 4 x Pattern Number 


Fig. 2 Relationship between cache miss rates and 
pattern set size for 3 classical string matching 


algorithms, 


,AC, WM, and SBOM. Pattern set 


size varies from 1000 to 20000. 

图 2 三种经典串匹配算法 （ AC ， WM ， SBOM) 的 Cache 
Miss Rate 与模式串个数的关系（模式串个数从 1000 〜 
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3基于存储优化的多模式串匹配算法 DTM 

通过以上的 Cache 性能分析，本文提出了一种 
基于存储压缩的多模式串匹配算法 DTM(double 
array trie matching ) ，该方法利用 Suffix Trie 和双 
数组 Trie 结构，能够在保持快速访问自动机的同时 
大幅度节约自动机的存储空间，从而获得更好的 
Cache 局部性和性能提升 • 

3.1 算法的基本思想 

为了获得紧凑的自动机存储表示，同时保持 
0(1) 的状态转移速度，本文采用 Suffix Tne [21] 和双 
数组 Tne [16] 结构来存储串匹配自动机.该方法的具 
体步骤 如下： 

步骤 1. 构建模式串集合 P rcv = {/^ v beP } 的 
Suffix Trie ； 

步骤 2. 对 Suffix Trie 进行减枝，去掉深度超 
过 ^o = logui ? wr 的结点; 

步骤 3. 用双数组 Trie 存储减枝后的 Suffix 

Trie . 

D T M 的基本思想是：1 ) 为了能够利用双数组 
Trie 的紧凑表示形式，算法采用 Suffix Trie 作为识 
别模式串的子串的自 动机； 2) 为了降低 Suffix Trie 
的空间复杂度，算法通过剪除层次较深的 Suffix 
T n e 结点以压缩自动机的存储空间.具体来说，由 
于经典的 DAWG ra * Factor Oracle ™ 都是图状结 
构，无法用双数组 Trie 表示，本文采用树状的 
Suffix Trie 作为底层的串匹配自动机 . Suffix Trie 
的存储空间是 0( 而- 2 )，远远大于 DAWG 和 Factor 
Oracle 的线性空间复杂度 0( mr \ 然而可以证明， 
当文本和模式串的字符在字符集2上独立和均匀 
分布时 ， Suffix Trie 中深度超过々。= log | v | mr 的结 
点被访问的概率非常之小.本文算法通过剪除这些 
访问概率很小的结点，并对窗口作较为保守的滑动， 
以保证算法的正确性.由于剪除的结点被访问的概 
率很小，所以基本不会影响算法的跳跃能力.减枝后 
的 Suffix Trie 可以达到近似线性的空间复杂度0 
{mr log | j | mr ). 

下面对算法的细节进行具体的叙述. 

3.2 DTM 串匹配算法 

同其他串匹配算法一样， DTM 算法也分为预 
处理和搜索两个阶段.在预处理阶段，首先对所有的 
模式串建立反向剪枝的 Suffix Trie , 作为识别模式 
串的子串的数据 结构； 然后通过层次遍历 Suffix 


Trie 的方式构建双数组 Trie ， 以压缩存储空间.在 
搜索阶段，利用预处理阶段建立的数据结构，在当前 
文本位置从右至左识别模式串的最长子串，以实现 
匹配窗口的跳跃 . 算法的具体过程 如下： 

1) 建立剪枝的 Suffix Trie 的过程与一般的 
Trie 树的建造过程相似.由于是对模式串建立反向 
的 Suffix Trie, 所以实际上是模式串的前缀.对于从 
位置 j 开始的反向后缀九 … 九，如果，说明该 
后缀超过了限定的深度，则截去后面 /=) 一 h 个字 
符，否则就无需剪枝了 . 然后将每一个字符串九 … 
户 /+r 添加到 Trie 树中去.对于每个叶子结点对应的 
字符串，如果它在模式串中的最右出现位置 为尸那 
么就为该叶子结点设置一个跳跃距离 S/u'/YDM = 
Imin—) ■, 如果 S/ii/>Dz's; = 0 ，表明在该叶子结点处， 
第个模式串可能出现匹配，于是将模式串/添加 
到该结点的匹配队列中去 . 限于篇幅，具体算法描述 
省略 . 

2) 在构造好剪枝的 Suffix Trie 后，就可以通过 
队列以层次遍历的方式建立双数组 Trie . 队列 
Qw.ewe 用来保存当前正在处理的结点 worknode D 丄 
及它在双数组中的位置 ^ 

① 如果当前处理结点 worknode 的孩子个数大 
于 0 ，即它是一个非叶子结点，这时通过 FirstFitln 
(x«or 々 HO<ie) 过程，在双数组 Trie 中查找 worknode 
对应的偏移量 base [^]; 这样，对于 worknode 的第 c 
个孩子 childnode ，它在双数组中的位置就是 ？= 
base\_s^\ -\~c,t 的父亲是 {worknode 在双数组中的 
位置），所以有 = M 最后，将 s 的每一个非空 
结点 childnode 及其在双数组中的位置，插人到队 
列中去； 

② 如果当前处理结点 worknode 的孩子个数等 
于 0, 即它是一个叶子结点，这时如果 办对 
应的跳跃距离大于 0( ShiftDist[zvork?wde]>Q )， 
那么就用保存该跳跃 距离； 如果 ShiftDist 
[xwor 々 HO<ie] = 0 ，就用 6ase[s ] 保存 worknode 结点处 
可能匹配的模式串的信息 MatchedList\_worknode~\ , 
为了和跳跃距离进行区分，心 wb ] 保存的是它的负 
值 . 

对队列中的每个元素执行上述过程，直到队列 
为空，双数组构造结束 . 构造双数组 Trie 的过程描 
述 如下： 

① procedure Build Dat Trie( T) 

② I—initial state of T ； 

③ Push Back (Queue , (0 , J ) ) ; 
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④ while NotEmpty(Queue) do 

⑤ (s ， worknode、—Front (Queue) •， 

⑥ if GetChildCount(worknode、〉Q then 

⑦ base\^s^\^FirstFitIn(zvorknode ); 

⑧ for each do 

⑨ if diworknode,c) ^6 then 

⑩ chiLdnode^S (zvorknode 9 c ); 

⑪ t -^base^s^ - \~c ; 

⑫ check\_t~\^s ; 

⑬ PushBack( Queue childnode ))； 

⑭ end if 

⑮ end for 

⑯ else 

⑰ if ShiftDisk\_worknode~\^>0 then 

⑱ base\_s~\^ShiftDist\_u)orknode ~\; 

® else 

⑳ head^—head of 

M.atchedList\_u)orknode~\ ; 

㉑ base\_s~\^~ — head ; 

㉒ end if 

㉓ end if 

® destroy node zvorknode ； 

㉕ PopFront(Queue )； 

㉖ end while 
㉗ end procedure 

3) 在搜索过程中，算法在当前文本的匹配窗口 
内识别模式串的最长子串 心如果 UI 小于剪枝的深 
度々。，说明不存在可能的匹配，于是匹配窗口可以 
安全地向右滑动 m — U| 个字符（匹配窗口的大小 
m); 否则，算法就会扫描々。个字符，这时如果有 
6(2兑[^]>0,说明块 ^ J + m -i 0 +i„. + m 对应的跳跃距 
离为 hse |>]， 匹配窗口可以向右滑动个字 
符；否则说明 Z/m + ml + l … tp ,„ +m 对应的跳跃距离等 
于0,需要将一保存的模式串队列逐个与文 
本进行比较，看是否发生匹配，然后窗口向右滑动一 
个字符.限于篇幅，具体算法描述省略. 

3.3 Suffix Trie 剪 枝与空间复杂度分析 

第 3. 1 节 指出: 深度超过怂 = log 谏膨的 Suffix 
Trie 结点被访问的概率非常之小，下面证明这个论 
断. 

定理 1. 当文本和模式串的字符在字符集2上 
独立和均匀分布时， Suffix Trie 中深度超过 h = 

10 g ! 2 1 r 的结点被访问的概率小于 | y t . 


证明.设 M 是一个长度为々的随机字符串4 
是一个长度为 HZ 的随机字符串.记 U 是 fi 的子串的 
概率是 P ( U ， p 、 ，那 么有： 

…，户)< |2|, <研’ 

同理，对于一组长度为 w 的随机字符串集合 P 来 
说，《是 P 中某个字符串的子串的概率 P («，_ P ) 应 
该满足如下不 等式： 

p ( u , P ) = 1 — (1 — pill , p)) r ^ 


1 m / mr 
其中， r = l _ FI . 

设 s 是一个长度大于 h 的随机字符串，那么 s 
是 P 中某个字符串的子串的概率满足如下不 等式： 


pr ( s ， P ) 〈 


: =是 0 +1 


mr 〆 mr 

TW 1 2 r» +i 






2i—i 


. 此不等式表明，深度超过 h 的 Suffix 


Tne 结点被访问的概率小于证毕. 

例如，当 UI =32时，该概率为 3. 3%，因此深 
度超过 h 的结点可以被减枝而几乎不影响算法的 
跳跃距离.对于模式串集合 P 来说，总共有 mr 个前 
缀，并且对于每一个前缀，最多添加 h 个字符到 
Suffix Trie 中，所以 Suffix Trie 的结点数目不超过 
mrk 0 =Oimr log | 2 | ?? ir ). 

DTM 和 BOM 算法的存储空间 比较： 

在本文的 DTM 算法中，用双数组 Tne 表示剪 
枝的 Suffix Trie , 每个 Trie 结点只需2个整数 （8 B ) 
表示即可.剪枝的 Suffix Trie 的结点数目不超过 
mr log | 2 |?« r ， 因而总的内存占用为 8 ?nr log | 2 | ?« r . 在 
BOM 算法中，自动机用状态转移表表示，每个结点 
需要121个整数 （4 |2|字节）来指示它的后继状态. 
B 0 M 的结点数不超过因而总的内存占用为 
imr \2\. 通常|2| = 256,因而 DTM 的存储空间 
8 mr log .| s .| wr 远远小于 BOM 的存储空间 4 ??zr 121 . 

在匹配自动机的状态转移速度方面， DTM 与 
B 0 M 具有相同的 0(1) 时间复杂度，因而整个匹配 

过程的平均时间复杂度均为 OC n log '-' ??, r ) M . 


4实验结果与分析 

本节首先从存储空间和匹配速度这两个方面将 
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+ SBDM 
♦ Table-SBOM 
令 Band-SBOM 
Compact-SBOM 
♦DTM 



-SBDM 

♦ Table-SBOM 

♦ Band-SBOM 
Compact-SBOM 

♦DTM 




0.2 0.6 1.0 1.4 1.8 

10~ 4 x Pattern Number 

Fig. 4 Memory usage comparison between DTM，SBDM 
and SBOM，with pattern set size varying from 1000 to 
20000. 

图 4 DTM 和 SBDM ， SBOM 的存储空间比较（模式串 
个数从 1000 〜 20000) 

节约的内存使用通常带来更好的 Cache 局部性 
和性能 提升. 由于 DTM , SBDM 和 Table - SBOM 的 
搜索过程本质上是相同的，因而耗用内存最少的算 
法将会获得最好的性能.图5、图6和图7分别是 
DTM 和 SBDM ， SBOM 在不同的模式串个数、不同 


0. 2 0. 6 1. 0 1. 4 1. 8 

10 _4 x Pattern Number 

Fig. 5 Searching speed comparison between DTM, SBDM 
and SBOM，with pattern set size varying from 1000 to 
20000. 

图 5 DTM 和 SBDM ， SBOM 的匹配速度比较（模式串 
个数从 1000 〜 20000) 


消耗的存储空间最少；在 SBOM 的各种实现中， 
Table - SBOM 耗用的内存空间 最大； SBDM 使用了 
比 SBOM 更多的内存空间，这是因为 SBDM 的 
DAWG 结构比 SBOM 的 Factor Oracle 结构具有更 
多的状态数目. 


DTM 同经典的 SBDM 和 SBOM 算法进行了比较, 
然后在 Cache 模拟器上研究了 DTM 和 SBOM 的 
二级 Cache Miss 次数与二级 Cache 大小的关系.实 
验结果验证了从压缩存储、改善 Cache 局部性的角 
度来优化串匹配算法的有效性. 

对于 SBOM 算法，实验中采用了不同的实现版 
本， 包括： 

1) Table - SBOM . 以状态转换表的方式实现，其 
特点是自动机状态转换速度快，但消耗大量的存储 
空间. 

2) Compact - SBOM . 以平衡二叉树的方式实 
现，其特点是自动机存储空间很小，但状态转换速度 
较慢. 

3) Band - SBOM . 用 Band Row [19] 的方法存储 
SBOM 的自动机，其速度和空间介于前两者之间. 

本节的实验是在如下环境中 进行 : AMD Athlon 
( TM ) 64 X 2 Dual Core Processor 3600+2. 00 GHz , —- 
级指令 Cache 为 64 KB , —级数据 Cache 为64 KB , 
二级 Cache 为512 KB ; 512 MB 内存 ； Linux AS 4. 0 
操作系统 ； GCC 3. 2. 3 编译器，编译选项为一 02 — 
pg ; 程序代码用标准 C ++ 实现 • 

实验中的测试文本是随机生成的，大小为10 MB ； 
模式串随机生成，为方便起见，模式串长度均为8; 
字符集大小为 256. 文本和模式串的字符按照等概 
率(均匀分布）的方式从字符集中产生. 

第 4. 2节中的实验使用 Linux 下的著名开源工 
具 valgrind ( http ：// valgrind . org /) 对 Cache 进行模 
拟，以验证 Cache Miss 与存储空间的 关系 . valgrind 
可以模拟不同的 Cache 配置并收集程序在该配置下 
的 Cache 行为，包括执行的指令数、执行的访存次数 
(读/写 ）、 Cache Miss 次数（读/写）和 Cache Miss 
Rate (读/写）.在 valgrind 中，通过选项 -71 ， - D 1 ， 
- L 2 来设定模拟器的一级指令 Cache 、 一级数据 
Cache 和二级 Cache 的配置，配置格 式为： 〈选项> = 
( size ) , ( associativity ) , {line size ) ； ^ ff 5 5Z2 ： e( Cache 

的大小）根据实验的需求进行变化 ， a ^ ocz ' a 如办和 
line size 采用系统的默认配置.当模拟程序执行完 
毕，用 valgrind 的工具 cg _ annotate 来提取相关函数 
(串匹配算法的匹配部分）的模拟 结果； 在本实验中， 
Cache Miss 主要集中在二级 Cache 的读操作上，其 
他 Cache Miss ( —■级指令 Cache Miss 、 一•级数据 
Cache Miss ) 影响很小. 

4.1 匹配速度和存储空间比较 

图4中的实验结果表明，在所有算法中 ， DTM 
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二级 Cache Miss 次数 比较. 可以看出， DTM 的二级 
Cache Miss 次数增长速度比较缓慢，而 SBOM 则要 
快得多.这是因为在10000以内的模式串规模, 
DTM 的存储空间与二级 Cache 大小相当，基本能 
够完全装人 Cache 中去，而 SBOM 的空间是 Cache 
大小的10倍左右，因而 DTM 具有更好的 Cache 
性能 • 

12 


10 


rig. 7 Searching speed comparison between DIM, SBDM 
and SBOM，with alphabet size varying from 4 to 256. 
Pattern set size is 1000. 

图 7 DTM 和 SBDM ， SBOM 的匹配速度比较（字符集 
大小从 4 〜 256 、模式串个数固定为 1000) 


4.2 二级 Cache Miss 次数比较 

图8是随着模式串个数增加 （2000 〜8000)、二 
级 Cache 大小固定为512 KB 时， DTM 和 SBOM 的 


2 6 10 14 18 

Pattern Length 

Fig. 6 Searching speed comparison between DTM, SBDM 
and SBOM，with pattern length varying from 2 to 20. 
Pattern set size is 1000. 

图 6 


-SBDM 

♦ Table-SBOM 

♦ Band-SBOM 
Compact-SBOM 

-h-DTM 




Cache Size/KB 

Fig. 9 Cache miss comparison between DTM and SBOM 
as level 2 cache size grows. 

图 9 二级 Cache 大小增加时 DTM 和 SBOM 的二级 
Cache Miss 次数比较 


2 

0 

2000 4000 6000 8000 

Pattern Number 

Fig. 8 Cache miss comparison between DTM and SBOM 
as pattern set grows. 

图 8 模式串个数增加时 DTM 和 SBOM 的二级 Cache 
Miss 次数比较 

图9是随着二级 Cache 大小增加 （16 KB 至 
4 MB )、 模式串个数固定为4000时， DTM 和 SBOM 
的二级 Cache Miss 次数 比较. 可以看出，在二级 
Cache 大小超过512 KB 以后， DTM 的二级 Cache 
Miss 次数已经变得很低，基本不 变了； 而 SBOM 则 


的模式串长度和不同的字符集大小情况下的匹配速 
度对比图.可以看出， DTM 是所有算法中最快的， 
其速度大约是 Table - SBOM 的2倍.此夕卜，尽管 
Band - SBOM 的空间远远小于 Table - SBOM 的存储 
空间，但 Band - SBOM 并不比 Table - SBOM 快许多， 
这是因为 Band - SBOM 的状态转换需要2次边界检 
查，从而容易导致了昂贵的指令分支预测错误. 


DTM 和 SBDM ， SBOM 的匹配速度比较（模式串 
长度从 2~20 、模式串个数固定为 1000) 



Alphabet Size 

Searching speed comparison between DTM, SBDM 
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要到2 MB 甚至4 MB 的 Cache 大小才变得比较稳定. 
这是因为模式串规模为4000时， DTM 的存储空间为 
0.277 MB , 而 SBOM 为 2.305 MB , 节约的内存使得 
DTM 比 SBOM 具有更好的局部性. 

从这个实验可以总结出如下规律 ：只有 当算法 
的存储空间小于 Cache 大小时，才能保持较低的 
Cache Miss 次数； 当模式串规模的逐步扩大以至存 
储空间远远超过 Cache 大小时, Cache Miss 次数就 
会显著增加，从而导致算法性能的大幅度下降. 

5总 结 

本文分析了 Cache 对串匹配算法性能的影响， 
并从压缩存储空间、优化 Cache 局部性出发，提出了 
一种对经典 SBOM 算法进行空间优化的策略.它使 
用 Suffix Trie 代替 SBOM 算法中的 Factor Oracle 
自动机，同时采用剪枝的方法将 Suffix Trie 的空间 
复杂度降低为近似线性，然后用双数组 Trie 表示之 
以节省存储空间.实验结果表明，改进算法不仅能够 
有效地节省存储空间，而且显著地提高了串匹配的 
速度. 

目前本文只对影响串匹配算法性能的因素进行 
了一些初步分析，如何定量地分析各种算法的 
Cache 复杂度 [22] ，以指导算法的评价和改进是下一 
步需要进行的工作. 
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Research Background 

Pattern matching (or string matching) is a classic problem in computer science and has a wide range of application. 
Recently, deep packet inspection (DPI)，which is based on large scale pattern matching，has become a research focus in 
network security area. The basic data structure used in pattern matching is automata. As the signature databases grow larger 
and larger ， however，network security systems are troubled with the huge memory space used by string matching automata. 
Taking the anti-virus system ClamAV for example，the AC automaton built from 79560 Clam A V signatures uses more than 
7. 5 GB memory. So it’s highly necessary to devise table compression methods to reduce string matching automaton’s space. 
Furthermore, the growing disparity of speed between CPU and memory, called “memory wall’’，remains to be a longstanding 
problem. Automaton-based string matching is a typical memory-bound application，so we try to trade off between memory 
accesses cost and CPU computation to improve the string matching algorithms’ cache locality and searching speed. We are 
dedicated to devise and employ efficient table compression methods such as triple array structure, double array structure，suffix 
array ， etc. to compress string matching automaton’s space while maintaining 0(1) state switching per text character 
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一种相关话题微博信息的筛选规则学习算法 

莫溢，刘盛华，刘悦，程学旗 

(中国科学院卄算技术研究所，北京 100190) 

摘要：微博作为一种新型的社会媒体.以其信息的高实时性、话题动态关注、传播速度快的特点.逐漸被人们所接 
受和使用。筛选出相关话題的微博信息•帮助用户关注话题的动态发展•成为迫切需要解决的问题。由于微博信 
息篇幅极短、包含的信息和特征少等特点.为相关话题微博信息的筛选带来了新的挑战.而传统的文本分类技术已 
不再适用。该文提出了基于信息熵的筛选规則学习算法，利用学习得到的规则对微博信息进行有效的筛选。算法 
利用信息熵来评价规则的好坏.同时基于模拟退火的随机策略使算法中的规则选择避免了过于贪心。分别通过来 
自新浪微博的约九万条标注数据和 TREC20 11 中约三千条特定话题的标注数据进行实验.该文算法相比于 CPAR 
和 SVM 算法，学习得到的规则在筛选时取得了较高的 F 值。 

关鍵祠 ： 微博信息 筛选； 规则 学习； 信息熵 
中图分 类号： TP391 文献标 识码： A 

An Entropy-Based Rule Mining Algorithm for Filtering Tweets by Topics 

MO Yi, LIU Shenghua, LIU Yue, CHENG Xueqi 
(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China) 

Abstract : Microblog as a new social media plays more and more important role in current life due to its real time, 
trends and spreading of information. The issue that filtering tweets according to a concerning topic for tracking its 
trends is of substantial significance to the users. Since a tweet is extremely short * containing less information and 
textual features, how to filter the short tweets becomes a challenge in that the traditional text classification is no 
longer applicable. In this paper, we proposed a entropy^based classification rule learning algorithm to filter tweets 
by topics. The experimental results on nearly 90 000 tweets and 3 000 officially labeled tweets from Sina Weibo and 
TREC 2011 show that our algorithm achieves higher F-score in filtering tweets by topics than CPAR and SVM algorithms. 

Key words : tweets filtering ； rule mining? information entropy 

微博这种以短文本形式出现的信息得到了迅猛发 
1 引言 展•逐渐成为一种社会新媒体。2011年上半年，我 

国微博用户数量从6311万快速增长到 1.95 亿 [1] ， 
随着 Web 2. 0的发展和信息传播手段的进步， Twitter 的注册用户总数已经超过三亿。自2010年 
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8月以来，相比于传统搜索引擎.人们更愿意在社会 
媒体上花更多时间，微博成为了人们日常生活不可 
缺少的部分，以及实时信息的重要获取媒介。微博 
中的博文或推文 （ Tweets ) ，本文统一称为微博信 
息，包含了丰富多样的话题，涉及政治、经济、军事、 
金融、生活、娱乐等各个领域。微博信息的实时性和 
时效性，给人们的生活带来便利的同时，也因其更新 
的速度远远地超越了人们的利用效率。以新浪微博 
为例，一般当关注人数超过几百以后，用户浏览信息 
的速度已经赶不上信息产生的速度。此外，随着移 
动智能终端技术的不断发展，人们更愿意在移动终 
端上使用社会媒体。而移动终端每次浏览信息更 
少，因此从大量微博信息中恨据所有用户感兴趣的 
话題即时筛选，越来越引起学术界和工业界的广泛 
关注。 TREC 2011 新增的微博任务，就将给定话题 
的微博信息筛选列入了其备选任务之一。 

如何恨据给定话題筛选微博信息，可以借助于 
文本分类的技术。针对传统长篇文档分类的研究取 
得了长足的发展，并已经广泛应用于业界。然而由 
于微博信息篇幅极短、包含的信息和特征少等特点， 
传统的文本分类技术不再适用，尚没有成熟的理论 
和技术。 Web 2. 0时代用户产生的信息有以下特 
点 ：首先 ，微博信息具有不可控的詞汇、含义模棱两 
可和缺乏规范性等特点 [2] ;其次，信息通常不重要或 
稀疏，难以提取有效特征；最后，信息有时可能是完 
全错误或误导，通常由人的错误导致。为了解决以 
上问题，文献 [3] 提出了 一种简单的基于规则的提取 
詞干的算法，算法能从错误拼写或者修改过的词中 
提取出正确的詞干，并专门用于垃圾邮件的检測。 
文献 [4] 提出了 一种通过维基百科来丰富用户稀疏 
的短文本信息从而提高短文本聚类的精确度，实验 
证明算法相比于传统的詞袋表示能提高聚类的情确 
度。 Sriram 等人 [ s ] 针对推文特征稀疏等问題，提出 
了使用提取用户信息和文本作为特定域特征的方 
法，在新闻、交易、事件等分类问題中达到了很好的 
效果，充服了传统“詞袋”作为特征进行分类的限制。 

手机客户端的普及使公众可以随时随地发布微 
博到互联网上，在线用户亦可实时看到更新的微博， 
其数量异常庞大。根据 Twitter 公司透露，载至 
2011年6月 ，Twitter —天增加博文数目约为两亿 
条；恨据国内新浪微博的统计•截至2010年10月底 
平均每天增加超过2 500万条博文。一位来自微软 
的项目经理评价微博说“在 Twitter 阅读最新的推 
文”就像“就着消防栓喝水一样”。 Twitter 是实时 


的，当信息超过一天或者几个小时后，价值也就下降 
了。正是由于微博所具有的不可控、缺乏规范性的 
詞诵，信息特征稀疏，人为的错误和误导以及实时性 
等特征，给面向微博话题的信息筛选带来了挑战。 

本文针对给定话题的微博信息筛选问题，考虑 
了微博信息语言不规范、特 征豨疏 、实时性等特点， 
采用了基于规则的分类方法进行筛选，并提出基于 
信息熵的规则学习算法。通过实验，与 SVM 分类 
算法相比，基于规则的本文算法和 CPAR 算法分类 
效果均比 SVM 算法效果好（新浪微博数据中， F 值 
分别为98.01%, 97. 77%, 96. 61%),同时本文算法 
学习出的筛选规则取得了更好的效果。最后，在 
TREC 2011 官方标注的关于 “BBC World Service 
staff cuts ” 话題约 3 000 条数据上的实验，本文算法 
同样取得了较高的 F 值。 

2 相关工作 

近年来，学术界针对 Twitter 微博信息内容的 
研宄不断地涌现出来。一方面，针对微博信息的情 
感分析和垃圾信息过滤 [ M ] 进行研宄。文献 [ 6 ] 
针对德国联邦选举的话題进行推文的政治情感分 
析，结果表明 Twitter 上的信息有效反映了政治情 
感和离线的政治格局。文献 [7] 提出了一种对推文 
情感自动分类的方法，文章结果显示机器学习算法 
在使用带表情符号的数据训练后能达较高准确度。 
文献 [8] 首先选定了几个微博信息话題类别，通过调 
研“有用”或“无用’’的特征，提出了一个可用于从实 
时的社会媒体中抽取有用信息的模块。文献 [9] 在 
七个月时间内使用60个“蜜罐”系统收集到36 000 
个 Twitter 上的内容污染者.并评价了识别自动内 
容污染者的广泛特征。以上针对微博信息内容的相 
关研究大多是关于情感分析及垃圾信息过滤等方 
面。然而，微博情感的分析依赖于所在话題的范畴， 
不同的话題有其特定的情感特征，同时针对话題的 
微博信息筛选一定程度上減少了垃圾信息的彩响。 
因此，如何基于话題对微博信息进行筛选是微博内 
容挖掘和处理的重要前提，尤其是考虑话题域的微 
博内容情感分析。另一方面，文献 [10] 研宄了如何 
通过微博信息的内容来预測真实世界的结果，通过 
对推文进行语义分析、文本分类等挖掘技术建立了 
预測电影票房的模型。文献 [ 11 ] 利用微博信息的时 
效性，通过对 Twitter 中实时事件的研宄，基于支持 
向量机提出了基于关鍵詞、微博信息数目和上下文 
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的分类模型.来监測特定的事件——地震.并建立概 
率时空模型来发现震心。文献 [6] 和 [7] 的研宄利用 
了微博信息的数据来进行特定话题或事件的预測， 
而对于如何定位属于指定话題的微博信息却没有能 
深入进行研究。因此，本文主要解决的问题是针对 
指定话题的微博信息筛选。 

文本分类技术方面，通过短短几年的研宄，从理 
论到应用都取得了许多可喜进展，许多基于统计机 
器学习的方法应用于其中。决策树归纳算法是通过 
跟踪一条由根到叶节点的路径来分类，叶节点存放 
着元组的分类 预測； 朴素贝叶斯分类基于贝外斯定 
理，預測元组属于具有最高后验概率 的类； 支持向量 
机算法 [12] 建立在 VC 维理论和结构风险最小原理 
基础上，将原数据映射到较高的维，再搜索最佳分离 
超平面，通过最佳分离超平面来进行分类 ； logistic 
回归 [13] 本质上是线性回归，在特征到结果的映射中 
加入了 一层函数映射，然后使用函数来进行预測。 
基于规则的分类通过一组由多个关鍵詞逻辑与组成 
的规则来进行分类，常用生成规则算法有 F () IL :14] 、 
CPAR [ 15] 等。 FOIL 和 CPAR 通过贪心地选取费用 
增量较高的规则，利用送代的方法挖掘分类规则集。 

其中，规則是表示信息或少量知识的好方法。 
分类规则表示直观、可读性强，因此利于用户的反馈 
和修改。易于实现的增量式规则挖掘机制，使得微 
博信息的筛选，能随着话題内容的演变，而即时更 
新。本文的算法是基于规则生成算法 FOIL 和 
CPAR 的思想：对训练文本顺序归纳得到规则；同 
时提供多个候选詞，形成分支生成多条规则。不同 
的是， FOIL 和 CPAR 均是基于贪心思想的算法。 
F OIL 算法每次总是选择收益值最高的作为下一个 
待添加的规则 调； CPAR 算法选择那些收益值与最 
大收益值相差很小的几个调均作为候选詞，然后形 
成多条分支，继续向下生成规则。上述算法均是从 
值高的调升始选择，算法过于贪婪，导致可能不一定 
能选到合适的词。因此本文算法采用了基于模拟退 
火的随机概率策略来选择规则詞，使算法不至过于 
贪婪，避免了只针对训练数据集的类别分布进行学 
习，提高了训练出的规则的泛化能力，有助于提高算 
法的召回率。 

3 基于规則信息熵的微博信息分类 

本文提出了 一种利用规則的信息熵度量模型和 
模拟退火的随机选择策略，进行规则学习的算法。 


本文的规则是由若干单詞组合而成，不带有先后顺 
序的关系，规则中的词互相不相同，并且相互之间不 
存在子串关系。同时本文针对短文本.詞频和出现 
位置的信息变得毫无意义，因此规则中的词不包含 
詞频和出现的位置信息。 

3. 1 研究动机 

FOIL 算法通过区分正样例和负样例来学习规 
則，是一种贪心的算法。其中正样例是用于学习规 
則的样例，其余样例均为负样例。在算法中.重复搜 
索当前最好的规则詞，移除那些包含当前最好规则 
的正样例，直到数据集中所有的正样例都被规则 
覆盖。 

在 FOIL 算法中通过一个收益值 FG 来衡量生 
成规则调 W 的好坏。 

FOIL_Gain ( VV ， K ) 

=〆 X 卜 pos'7'neg' - l0g :’ p^T S ) 

( 1 ) 

由上式可以看出， FOIL 算法每次添加的规则 
詞都尽量做到多覆盖正样例和少覆盖负样例。当每 
次选择仴加入到当前规则时， FG 值被用来衡量加 
入该词到当前规则后产生的信息增量。利用贪心的 
思想，算法认为每次加入 FC ； 值最大的詞能生成最 
好的规则。 

在关联分类中，关联规则挖掘被用于生成候选 
的规则，候选规則中包括所有满足支持度阈值的词。 
从该候选规则中选择一个子集，组成新规則，大小为 
w ， 则该规则是由全部样例生成的最好的》級规则。 
但这需要在规则生成中做穷举的搜索。 

在 FOIL 算法中，每条规则都是由剩下的数据 
集生成的。假设剩余数据集中的一条样例/被一条 
新生成的规则 r 覆盖.那么我们无法确定规则/■是 
否是该样例？的最佳规则。因为 1); •是由贪心算法 
生成的，而贪心算法在某些情况下结果不一定是正 
确的； 2) r 是由剩余的数据集生成的而不是全部的 
数据集。 

因此有人提出了 CPAR 算法，该算法是穷举和 
贪心算法的折中。和 FOIL 算法一样， CPAR 算法 
通过依次添加祠来组成规則，然而 ， CPAR 不是只保 
留最好的詞，忽略其他所有的詞，而是同时保留那些 
次好的调或者更多。通过这么做， CPAR 可以同时 
选择更多的詞，然后生成多个规则。 

本文算法是基于规则生成算法 FOIL 和 CPAR 
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的 思想： 对训练文本顺序归纳得到规則；同时提供 
多个候选詞，形成分支生成多条规则。不同的是， 
FOIL 和 CPAR 均是基于贪心思想的算法。 FOIL 
算法每次总是选择 FG 最高的作为下一个待添加的 
规則 詞； CPAR 算法会选择那些 FG 值与最大 FG 
值相差很小的 n 个调均作为候选詞，然后形成 n 条 
分支，继续向下生成规则。上述算法均是从值高的 
詞开始选择，算法过于贪婪，导致可能不一定能选到 
合适的词，因此本文算法采用了随机概率菜略来选 
择规则词，使算法不至于过于贪婪。另一方面，规则 
是通过逐步添加詞的方式生成的，随着规则中 仴数 
的增加，所含信息就越来越明确，接受新添规则詞的 
概率減小，因此我们采用模拟退火的迭代框架来刻 
画该特点。 

3.2 算法概览 

我们定义规则训练的语料中.属于指定话題的 
微博信息所组成的集合为生成规则的正类，记为 P ; 
否則，不属于该话题的集合为资类，记为/ V ;詞库 W 
包含了话题可能涉及的关鍵词。算法步骤如图1所 
示，首先建立调库 W ■的字典树，词库 W ■基于一个逐 
渐积累的基础詞库，对于语料中出现而在基础仴库 
中没有的词，若该詞在语料中频繁出现，则将其加入 
到詞库 W 中，通过这样做便能发现语料中出现的新 
詞； 通过步骤3〜10的送代步骤，在当前的正类 P 
下生成新的筛选规则尺*，删除 P 集合中被新规则 
尺 * 覆盖的微博信息，并将新规则 K * 添加至规则 
集尺。当 P 集合为空或者当次生成新规则 K * 为空 
时这种顺序覆盖的规则的迭代终止。 



图1 算法总体流程 


3.3 规则的信息熵 

信息熵由信息论的创始人香农提出.研宄指出， 
信息量的大小取决于包含信息内容的不确定性程 
度。在统计学中，不确定性是用概率描述的.所以信 
息量的大小应该也能用概率来表示。信息域表示如 
式（2)。 

n 

H(X) -- 2 P(x f )logP(x,) (2) 

i = l 

“熵”与“信息”紧密相联。熵越小，此时含的信 
息量 越大； 相反，熵越大，含的信息量就小。因此规 
則信息熵是某条规则能包含的信息量的大小，即表 
示该规则所能表示的类的信息量的大小。本文中涉 
及为二分类问題.即 p 类和； V 类，若某规则对应 P 
类，若其规则信息熵越小，则表示其包含 P 类的信 
息量越大，也就是其越能代表该类的 特点； 若规则信 
息熵越大，表示其包含 P 类信息量就小。式 （ 2) 
变为： 

H ( R ) =- ( P(^)logP(x A ) +P( ： r„)logP(j：„) ) 

(3) 

其中 P ( Xp ) 为规则匹配中正类 P 的概率， 
PU ,,) 为规则匹配中资类 N 的概率。在算法学习过 
程中，利用规則在 P 集合命中的微博信息数目与总 
命中数目的比例来估什 P (_!>) ，同样 , P ( x „ ) 也利用 
在 N 集合中命中微博信息的数目比例估计。本文 
目的主要是对 尸类生 成规则，因此在生成规则时只 
考虑 P (: £>) 大于 0.5 的规则，然后计算规则对应的 
信息熵，以此作为算法挖掘规则的重要标准。 

3.4 规则迭代学习 

规则送代学习 GenRules 依次从当前剩余的 P 
集合中通过顺序覆盖方法生成一次迭代的覆盖规 
則；生成规则的过程是逐步添加规则詞的过程，我们 
采用了模拟退火的迭代框架，以一定概率接受候选 
规則词。如图2所示，尺 * 是算法要生成的规则集， 
ante 为 当前已生成的规则前件， P '、 N ' 为被 an / r 覆 
盖的文本集合。 

首先利用 P' 和 JV' 在字典树中匹配，记录下每 
个詞在 P ' 和 N ' 中出现的文本的数量（步骤 2) 。在 
选择詞时，我们采用信息熵信息增益 AH 来衡量词 
的好坏（步骤 3 )。 

AH = H ( K ' )- H (4) 

其中 K ' 为规则只添加规则詞 W 后形成的新规 
則， H 值由式 （2) 给出。 
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詞库中的詞按照信息熵增益从小到大依次进行如下 
步骤 ：若该 詞信息熵增益小于零，则该詞直接添加 
到规则词集合 cand 中 ； 否则按式 （ 5 ) 计算该詞被选 
中到规则詞集合 cand 中的概率。 

ratio = ( 贿 ) (5) 

其中 AH 为式 （ 4 ) 计算的结果， MAX _KULE_ 
LEN 为规则最大长度的参数，为当前已学习的 
规則前件 an/t ■ 的大小。 

计算词的 ratio 之后，同时生成一个随机概率 
，若匕,〈⑺如则选中该詞到规则词集合 
ram/ 中。每次选择出若干候选规則调后，每个候选 
詞分别添加到当前规则前件 ante 中，分别形成不同 
的分支递归调用 GenRules 。 若规則前件⑽ /t •长度 
达到规则最大长度限制，则将 ante 添加到尺 * 中， 
表示已生成一条规则，然后继续处理后续候选调。 
直到所有 GenRules 函数结束。 

通过上述方法选择出若干候选规则詞后，每个 
候选詞分别添加到当前规则前件〜中，分别形成 
不同的分支递归调用 GenRules ( 步骤 5 〜 14 )。如 
图 3 所示。 



图 3 候选词分支 


输入： 训练集 P ， 和 JV' 、 规則前件祠库 W 的字典树 
全局变量尺 * 


PROCEDURE GenRules(a ； i/f.F ， .N ， ) 

基于伺库 W 的字典树 . 卄算每个关鍵词命中 〆 和 
的 数目； 

计算命中关鍵词的 AH ; 

基于模拟退火的接受概芈 （公式 （ 5 )> 选择规则词记 

为集合 cand j 

FOR EACH c-w IN cand 
ante'-^aiite\J {CwJ 
tmpP'^P' .tmpN'^N' 

刪除 /;H pP' 和 //HpJV' 中不包含 Cw 的短文本 
IF I ante'\^ MAX jULE_XEN OR tmpp ( |N'|=0 
R * *-R * U {ante'} 

ELSE 

GenRules(a>i// ， tmpP' ， tmpN') 

ENDIF 

ENDFOR 

RETURN 


图 2 GenRules 函数过程 


算法随后通过基于模拟退火算法的迭代框架随 
机选择出若干规则詞（步骤4)。算法步骤如 下：对 


若规则前件 ante 长度达到规则最大长度限制， 
則将 ante 添加到尺 * 中，表示已生成一条规则，然 
后继续处理后续候选词。直到所有 GenRules 函数 
结束。 

3.5 规则应用过程 

通过上述算法学习到规则集，该规则集均对应 
于正样例文本对应的类，因此利用规则集去匹配文 
本从而获知未知文本对应的话題类。具体过程 
如下。 

第一，将规則集中的每个规则调建立一棵 Trie 


树，利用 Trie 树匹配待分类的文本语料，记录下每 
个规则调匹配的文本 集合； 

第二，进行规则解析，将规则集中规则詞所匹配 
中的文本集合进行交或并操作，最终获得规则所匹 
配的文本，匹配文本所对应的话題类即为规则所对 
应的话題类。 

4 实验及分析 

实验中首先采用了新浪微博的数据，每条微博 
信息字数在140字以内，共采集了 89 158条。针对 
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处理后的短文本数据，按照世博会的话題进行人工 
标注，得到3 558条与世博会话題相关的短文本，剩 
余85 600条数据与世博会话题无关。从所有与世 
博会有关的短文本中随机选取2 847条（约80%)作 
为正类训练集 P , 同样从与世博会无关的短文本中 
得到68 480条（约80%)作为负类训练集 N ; 剩余 
17 831条数据作为測试集.保持了训练集和测试集 
合具有相同的正负样例比例。此外，我们针对英文 
内容做了一组实验，语料来自 TREC 2011官方标注 
的 Twitter 数据，选取关于 “BBC World Service 
staff cuts ” 话題的标注数据，包含了 64条正类微博 
信息和2 990条负类微博信息。并按照1 : 1的比 
例选取了训练集和測试集 。 Baseline SVM 算法选 
择开源包 SVMLight 进行训练，将文本语料转换成 
SVMLight 的输入格式，参数均采用 SVMLight 的 
默认参数。 


表1 新浪微博数据比较结果 


算法名称 

准确率/% 

召回率/% 

F 值/% 

CPAR 

98. 35 

97. 19 

97.77 

SVM 

97. 19 

96.04 

96.61 

本文算法 

99. 28 

96.77 

98.01 


表 2 1REC 2011 数据比较结果 


算法名称 

准确率/% 

3回車/% 

F 值/% 

CPAR 

92. 59 

78. 13 

84.75 

SVM 

92. 59 

78. 13 

84.75 

本文算法 

81.08 

93. 75 

86.96 


表1比较了本文算法 、 CPAR 算法和 SVM 算 
法在新浪微博语料上的实验情况。结果表明本文算 
法在处理短文本语料时在准确率和召回率上都能达 
到较高要求 （F 值98% 以上） ，在准确率上比 CPAR 
算法高（准确率 99. 28%>98. 35%),已能达到实际 
应用要求。由于微博信息的内容极短，支持向量中 
各个维度的词频大多数为0和1，又加上正资训练 
样例不平衡，使训练得到的支持向量对训练集更加 
敏感，从而 SVM 算法在处理本文语料得到的效果 
(准确率 97. 19%,召回率 96. 04%)没有 CPAR 算 
法和本文算法高，由此可见对于本文的短文本语料 
基于规则的分类更加有效。表2给出了 TREC 
2011数据上的比较结果•同样，本文算法在英文短 
文本语料上的整体实验效果要好于 CPAR 和 SVM 
算法。 


5 结束语 

本文提出一种基于信息熵和模拟退火迭代框架 
的微博信息的筛选规则学习算法。该算法考虑了微 
博特征稀疏、用语不规范的特点，利用规则的方法消 
除詞频的影响，直接从微博内容中学习规則，同时将 
不规范讷作为规则的一部分。针对新浪微博和 
TREC 2011 的 “BBC World Service staff cuts” 的标 
注语料的实验表明，该算法学习得到的筛选规则，使 
相关话題的新浪微博信息的筛选达到了较好的效 
果。由于互联网上存在海量的未标注微博信息，因 
此如何利用小部分已标注的文本语料进行半监督增 
量式的学习，将作为下一步的研究方向。 
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查询的切分对检索效果的提升有很好的促进作用， 
这也是传统关于查询切分的研究未能关注的地方。 
另外，通过 4.3 节中的实验，我们发现，结合了查询 
切分的融合临近度的打分方式，要好于以前不考虑 
用户查询切分的融合临近度的方式，这也给关于词 
项临近度的研究工作提供了新的思路。在未来工作 
中，我们会在基于词项临近度的排序模型上做较为 
深入的研究，并尝试将其与现有的查询切分工作进 
行更为有效的结合，最终更好地促进检索效果的 
提升。 
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Abstract Intrusion detection is a critical component of secure information systems and supervised network 
intrusion detection has been an active and difficult research topic in the field of intrusion detection for many 
years. However, it hasn’t been widely applied in practice due to some issues. The most important reason 
for that is the difficulty in obtaining adequate attack data for the supervised classifiers to model for the 
attack patterns, and the data acquisition task is always time-consuming and it greatly relies on the domain 
experts. In this paper, a novel supervised network intrusion detection method based on TSVM 
(transductive support vector machines) classification algorithm is proposed. It can effectively detect 
anomalies with high detection rate, low false positives even under the circumstance of lacking adequate 
attack data for training. Experimental results on the well-known KDD Cup 1999 dataset demonstrate that 
the proposed method is robust and more effective than the state-of-the-art intrusion detection method. 


Key words network security; intrusion detection; support vector machines(SVM); TSVM; classification 
learning; machine learning 


摘要 网络入侵检测技术是入侵检测领域研究的热点内容，但仍然存在误报率较高、对建立检测模型 
的数据要求过高、在缺乏足够训练数据的“小样本”环境下检测性能明显下降等问题.基于 TSVM 分类 
机器学习算法，提出了一种有指导的网络入侵检测新方法，能够高效地检测网络入侵.通过基于著名的 
KDD Cup 1999 数据集的实验，表明其相对于传统的入侵检测方法具有较高的检测率和较低的误 报率； 
特别是在采用“小样本”训练集的情况下，其仍能保证较高的检测性能. 

关键词 网络 安全； 入侵 检测； 支持向 量机; TSVM; 分类 学习； 机器学习 
中图法分类号 TP309 


入侵检测系统是网络安全防御体系的一个重要 
组成部分，它通过对网络和主机上某些关键信息进 
行收集分析，检测其中是否有违反安全策略的事件 
或攻击事件发生，并对检测到的事件发出警报. 

目前常用的入侵检测技术主要有两种：误用检 
测和异常检测 [1] .误用检测是建立在使用某种模式 


或者特征描述方法对任何已知攻击进行表达这一理 
论基础上的.这种技术的优点是可以有针对性地建 
立高效的人侵检测系统，误报 率低; 缺点是对未知的 
人侵活动或已知人侵活动的变异无能为力.异常检 
测一般方法是建立一个对应“正常活动”的系统或用 
户的正常轮廓，检测入侵活动时，异常检测程序产生 
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当前的活动轮廓并同正常轮廓比较，当活动轮廓与 
正常轮廓发生显著偏离时即认为是人侵，从而触发 
相应机制.其最大的优点是有可能检测出以前从未 
出现过的攻击方法，不像误用检测那样受已知脆弱 
性的限制，然而其误报率过高. 

传统的人侵检测方法大多基于数据挖掘及机器 
学习方法，并且，它们都可以转化为相应的分类问题 
来解决.如基于 SVM 算法的人侵检测模型 [2] 、基于 
多分类支持向量机的网络人侵检测方法 [3 _ 4] 等，它 
们在一定程度上的检测效果比较好.然而，它们均 
非常依赖于用于机器学习所需的训练数据集.但在 
实际的人侵检测应用中，搜集网络攻击数据并对其 
进行标记用于训练是一件非常困难且人力和物力耗 
费都相当大的工作，需要领域专家 （domain expert) 
的参与.因此，如何在训练数据稀缺的现实环境下 
保证人侵检测的效率(髙检测率和低误报率），成为 
当前人侵检测领域的经典难题. 

针对上述情况，本文提出了一种人侵检测新方 
法，它基于 TSVM(transductive support vector machine) 
算法.该算法依据统计学习领域先进的直推式学习 
(transductive inference) 方法以及机器学习领域学习 
和泛化能力及非线性、高维模式识别问题中表现出 
许多特有优势的 SVM 方法，对网络流量进行分类 
判定，从而检测人侵.通过一系列基于著名的 KDD 
Cup 1999数据集的实验测试，验证了其有效性.该 
方法与传统的人侵检测方法相比，可以在保证高检 
测率的前提下极大地减少误报率.更为重要的是在 
仅有“小样本”训练集的环境下，其仍然能保证较高 
的检测性能. 

本文第1节介绍 TSVM 算法的理论 背景; 第2 
节全面阐述基于该算法的网络人侵检测 方法； 第3 
节给出算法的实验结果，并对实验结果进行分析和 
对比； 第4节给出本文的结论. 

1 TSVM 算法原理 

1.1 支持向重机 (SVM> 

支持向量机 (SVM) 近年来受到了广泛的关注， 
它在多种分类问题上表现出了优异的推广性能，其 
基本思想是基于统计学习理论的结构风险最小 
化 f5] . 

对于线形可分的问题来说，设有一个含两类样 
本的样本集为 

, y t ) 6 R n ,yi € I- 1, + l|. 


其分类面方程为 

g { x ) = (to • x ) + b = Q . (1) 

要使两类所有样本都满足 I I >1, 也就是 

使得离分类面最近的样本的 =1 这样分类 
间隔就等于2/11 W | ，因此间隔最大等价于使II m 
II ( 或II w || 2 ) 最小； 而要求分类线对所有样本正确 
分类，就是要求其 满足： 

: ^[(加.0：;) + 6]>1，£ = 1，2，".，《_ (2) 

因此，满足上述条件且使II ™ II 2 最小的分类 
面就是最优分类面.这两类样本中离分类面最近的 
点且平行于最优分类面的超平面上的训练样本就是 
使式 (2) 中等号成立的那些样本，它们叫做支持向量 
(support vector). 根据上面的讨论，最优分类面问题 
可以表示成如下的约束优化问题，即在式 (2) 的约束 
下求函数 

#( w) = y || w || 2 (3) 

的最小值.这是一个二次规划问题，可引人拉格朗 
日乘子 = 1,2, 并 定义： 

I 

w(a) = a iy^i • ⑷ 

»=i 

使用 Wolfe 对偶定理把上述问题转化为其对偶 
问题： 

MaxW ( a ) = ^jai — trivia ) • w ( a ), 

i ^ 

s.t. a, > 0, = 0. (5) 

对于线性不可分的训纟^集，可以引入松弛变量 
ft, 把式 (3) 改写为在条件式 (6) 下求解函数式 (7) 的 
最小值问题： 

+ ( 6 ) 

( w ) = -^- \\ w \\ 2 + C ^$ i . (7) 

类似地可以得到相应的对偶问题，如式 (8) 所示： 

MaxW ( a ) = — • w{a ) t 

s.t. 0 < ^ C, = 0- 

1.2 TSVM 原理 

在统计学习理论领域中，直推式方法 
(transduction) 通常是指对于一个样本的类别预测可 
以直接通过训练数据中的所有样本来获得，而不是 
使用传统的归纳 （induction) 方法采用从训练数据中 
得出的通用规则的方法来进行 [6] .该概念被广泛地 
应用于机器学习领域，因为它只需要满足 iid 假设， 
即待归类的样本以及用于训练的数据集都是独立且 
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同 分布. 并且，它并不需要知道样本数据的分布类 
型以及分布参数. 

在直推式学习中，学习机在训练过程中使用较 
少的有标签样本和较多的无标签样本进行学习.直 
推式学习的一个重要特色就在于在这样一种混合样 
本的学习过程中，测试集的样本分布信息从无标签 
样本转移到了最终的分类器中.由于无标签样本的 
数量较多，所以能够较有标签样本更好地刻画整个 
样本空间上的数据特性，从而使训练出的分类器具 
有更好的推广性能.直推式学习在模式识别的各个 
领域都已经有了不同程度的研究和应用. 

TSVM 是 Joachims 对成熟的 SVM 文本分类方 
法进行进一步改进形成的一种经典的直推式学习方 
法，特别适合小样本训练集 [7] .这种方法在学习训 
练过程中把测试集也一起进行考虑，然后尽量减少 
测试集（未标记集合）的分类错误.通过研究这些测 
试集的位置获得信息，建立一个基于训练集和测试 
集的分类间隔的结构. 

TSVM 的算法原理 如下： 给定一组独立同分布 
的有标签训练样本点： （^ 1 ， _ yi ) ,…， （: r „ , ： y „) , J ：,. 6 
R m , yi ^ \ - 1, +1丨和另一组来自同一分布的无标 
签样本点< ，-, xt . 在一般的线性不可 

分条件下, Joachims 的直推式向量机的训练过程可 
以描述为如式 (9) 所示的优化问題.其中参数 C 和 
( T 为用户指定和调节的参数.与式 （7) 中的参数 C 
作用类似，我们把参数 CT 称做是无标签样本在训 
练过程中的影响因子 ， CT 称为无标签样本在 
目标函数中的影响项. 

Minimize over (yi , , yl ， w，b U „ ，安 :， ，f / ) 

4 - II to II 2 + C 2 ^： + C * X / > 

^ , = 1 ;= 1 

s . t . . a + 6] > 1 -色， 

V ： yj\.w • + 6] ^ 1 - , 

>0, 

V 4 -':?； >0. (9) 

TSVM 的训练过程也就是求解上述优化问题 
的过程 [8] .对于本文所考虑的人侵检测过程，训练 
算法大致可以分为以下几个 步骤： 

1) 指定参数 C 和 C - (通常约为10_ 5 的小数）， 
使用归纳式学习对有标签样本进行一次初始学习， 
得到一个初始分类器.并按照某个规则指定一个无 
标签样本中的正标签样本数. 

2) 用初始分类器对无标签样本进行分类，根据 
对每一个无标签样本的判别函数输出，对输出值最 


大的 JV 个无标签样本暂时赋正标签值，其余的赋负 
标签值.并指定一个临时影响因子 C ,* rap . 

3) 对所有样本重新训练，对新得到的分类器， 
按一定的规则交换一对标签值不同的测试样本的标 
签符号，使得优化问题式 (9) 中的目标函数值获得最 
大下降.这一步骤反复执行，直到找不出符合交换 
条件的样本对为止. 

4) 均匀地增加临时影响因子 C t ；> p 的值并返回 
到步骤3)，当 C t ;> C - 时，算法结束,并输出结果. 

在上述过程中，步骤 3) 中的标签符号交换保证 
了交换后的解优于交换前的解,而步骤 4) 中的临时 
影响因子由小到大逐步递增则，它试图通过逐渐增 
加无标签样本对算法的影响的办法，来追求尽可能 
小的对无标签样本的分类误差.由于步骤 1) 中指定 
的 CT 是有限的，由步骤 4) 中的结束准则可知，算法 
能够在有限次执行后终止并输出结果. 

2基于 TSVM 的入侵检测框架 

本节基于上述的 TSVM 算法构建了一个网络 
人侵检测框架，旨在说明如何在实际中使用该方法 
进行人侵检测.如图1所示，在示意图的下半部分， 
训练阶段 (training phase ) 为了建立实际应用中正常 
的训练集的工作主要包括如下几 部分： 



图1基于 TSVM 算法的人侵检测框架 


1) 数据收集 （normal data collection ) :从网络中 
采集能够反映应用正常和入侵行为的数据，用于构 
建检测阶段中用于人侵检测的训练数据集. 

2) 特征选择及向量化 （feature selection & 
vectorize ): 为了对人侵和正常数据进行区分,需要根 
据相应的特征对收集的数据进行向量化；即数据都 
由其特征向量表征.这些特征主要包括连接的持续 
时间、连接传输的数据量大小、一个固定时间间隔内 
SYN 包与 ACK / SYN 包的比率等等，这些都由用户 
指定，并根据其形成向量，作为 TSVM 算法的训练 
集合 • 

3) 数据标记 (data labeling ) :通过领域专家的干 
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预,对经过特征选择和向量化后的数据(也就是训练 
集中的特征向量）进行部分标记（小部分进行标记， 
大部分为未标记数据），分为正常和异常的人侵数据 
两类. 

4) 形成基于 TSVM 的检测模型 ：完成 训练数 
据的采集以及对其进行部分标记的工作后，则采用 
TSVM 分类方法对正常和异常两类数据进行训练 
学习，形成检测模型，以供检测之用. 

图1上半部分给出了检测阶段 （detection 
phase ) 的主要工作： 

① 数据采集 (data collection ) :网络数据采集模 
块主要负责从所监控的目标网络段中收集原始的网 
络数据，包括网络数据在链路层、网络层和传输层的 
数据元信息等. 

② 数据预处理 （data preprocess ) :由于 TSVM 
算法处理的对象是由特征向量表征的独立点，并且 
用于人侵检测的训练集也是由许多独立同分布的点 
所构成的，所以该模块负责将从数据采集模块中收 
集来的原始数据按照实际应用中事先定义好的特 
征,处理成由这些特征组成的特征向量，交由后续模 
块处理. 

③ 人侵检测 (intrusion detection based on TSVM ) : 
该模块则使用 TSVM 分类方法形成的分类器，对新 
来的数据一个一个地进行判定. 

3实验结果与分析 

在实验中，首先，我们将本文所述方法与入侵检 
测领域较为著名的人工神经网络 （artificial neural 
network , ANN ) 方法、 SVM(support vector machine , 
SVM ) 方法和 K ： 近邻 （ K-nearest neighbor , KNN ) 方 
法的检测效果进行了 比较; 然后，我们对比了该方法 
和其他几种方法在采用“小样本”的训练集进行学习 
的测试结果. 

3.1 实验数据集和实验环境 

为了保证实验的说服力和方便性，我们采用研 
究领域共同认可及广泛使用的基准评测数据集 
KDDCup 1999数据集 [9] 进行测试.该数据集包括 
大约490万条数据记录，每条都是从军方网络环境 
中模拟攻击所得的原始网络数据中根据设定的41 
个特征提取出来的，它们都是描述网络连接统计信 
息的特征向量，包含5类 数据： DoS , Probe , R 2 L , 
U 2 R 四类攻击数据(共包含24种攻击类型）以及正 
吊数据- 


本文所述的实验平台其环境为 Pentium N 
3 GHz CPU ,512 MB DDR 内存， 80 GB + 7200 转硬 
盘; 操作系统为 WinXP + SP 2. 实验所用的人工神 
经网络算法、 SVM 算法和 KNN 算法均采用机器学 
习领域著名的 WEKA 软件 [ U )] 进行实验, TSVM 算 
法则采用 SVMkh 实现的版本 [11] 进行实验. 

3.2 对比实验结果 

在对比实验中，我们将 KDD Cup 1999的数据 
集进行了提取.我们数据集中随机提取了 1965条 
正常数据(统一标记为 “0”） 和2050条攻击数据（包 
括上述4类攻击，统一标记为 “1”）， 其中攻击数据占 
整个数据集的1%.我们采用了 10折交叉验证 ( ten ¬ 
fold cross validation ) 的方法，重复实验10次，取检测 
率 （true positive rate , TP 〉 和误报率 （false positive 
rate , FP ) 的平均值对几个方法进行了对比.其中， 
检测率定义为正确检测入侵样本的数量/测试集中 
入侵样本的数量，误报率定义为错误判为人侵的正 
常样本数量/测试集中正常样本的数量. 

在实验中，我们对 WEKA 中的 SVM , ANN , 
KNN 三种算法挑选不同的参数进行了多次实验，各 
取其检测效果最好的结果作为比较.其中， SVM 的 
参数为类型为 C - SVC ， 核函数为 RBF(radial basis 
function ) ; ANN 算法采用 3 层结构，输人层、中间屋 
和输出层各一个 ，lerning rate 为0 • 3, momentum 为 
0.2 , trainingtime 为 1000, validationthreshold 为20; 
KNN 算法近邻数为10,各属性不带权重.对于本文 
所述的 TSVM 方法，我们则使用 SVM 1 # 1 工具的缺 
省参数进行实验.实验结果如表1所示.从表中我 
们不难看出，在训练数据充足的情况下， TSVM 方 
法的检测率与传统的较为理想的 SV 1 V [和 ANN 方 
法不相上下，要略优于 KNN 方法. 


表 1 

十折交叉对比实验结果 


% 

检测方法 

TP 

FP 


SVM 

99.5 

1.0 


ANN 

99.8 

0.8 


KNN 

99.2 

1.5 


TSVM 

99.7 

0.8 



3.3 “小 样本” 环境实验结果 

在对比 TSVM 和其他方法在“小样本”环境下 
的检测效果的实验中，我们从上述随机提取的数据 
集中再次选取了部分训练和测试数据集.其中，训 
练集包括已经标记好的96条正常数据和％条攻击 
数据，用于包括 SVM 在内的其他方法的训练 学习； 
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另外的245条数据去除其分类标记，连同上述的 
192条标记数据用于 TSVM 分类器进行训练学习. 
测试集同第 3.2 节所使用的相同.实验结果如表2 
所示.该结果显示， TSVM 方法相比包括 SVM 在内 
的其他3种方法，在小样本环境下的检测效果要好 
得多，具体体现在其检测率高，且误报率很低，而其 
他方法检测率下降，误报率明显上升.另外，在本实 
验中，我们特别关注了 TSVM 方法和 SVM 方法在 
达到同样检测率指标下所需已标记训练样本的比率 
关系.通过实验发现（如图2所示），两种方法要达 
到99.5%的高检测率， TSVM 方法只需要标记样本 
40个左右，而 SVM 方法则需要800个左右，大约为 
TSVM 方法的20倍.这无疑证明了 TSVM 方法用 
于入侵检测在实践中的优越性，不但可以大大减少 
领域专家手工标记样本的工作量，而且丝毫不会影 
响到实际的人侵检测率，这也正是我们所希望看到 
的效果. 


表2 

小样本实验比较结果 


% 

检测方法 

TP 

FP 


SVM 

98.7 

2.7 


ANN 

98.3 

2.2 


KNN 

97.7 

4.8 


TSVM 

99.6 

0.8 




图2 TSVM 与 SVM 同等检测效果下所需标记样本对比 


4结束语 

本文提出了一种基于 TSVM 分类方法的人侵 
检测技术.通过大量的对比实验，在通常及“小样 
本”环境下的实验表明，其相对于传统的入侵检测方 
法来说具有检测率髙、误报率低的优点，尤其适用于 
“小样本”的人侵检测环境. 

我们下一步工作主要是将该方法应用于实际的 


人侵检测中，通过在骨干级的网络上收集真实的网 
络数据使用 TSVM 进行训练和测试，并调试其相应 
的参数，并根据实际情况不断优化其检测性能.另 
外，对 TSVM 的进一步优化也是一个非常重要的工 
作.我们希望通过引人主动学习 （active learning ) 的 
方法，能够进一步地减少用于 TSVM 算法训练所需 
的标记样本数量，并且能够保证较高的训练质量. 
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基于概率干扰的概率隐蔽通道仿真研究 

郭云川 U ， 周渊 3 ，丁丽 3 ，郭莉 1 
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3. 国家计算机网络应急技术处理协调中心，北京 100029) 

摘要： 讨论了影响概率隐蔽通道带宽和传输错误率的因素，对不满足 BSPNI (bi-simulation strong probabilistic 
non-interference)^ PBNDC (probabilistic non-deducibility on composition ) 和 SPBNDC (strong probabilistic BNDC) 

性质的系统概率隐蔽通道进行了仿真，仿真结果表明，概率隐蔽通道的带宽与硬 / 软件配置、概率调度因子和调度 
次数有密切关系，当硬 / 软件配置和概率凋度因子固定时，概率隐蔽通道的带宽近似地反比于调度 次数； 传输错误 
率与概率调度因子和调度次数关系密切，凋度次数越人，传输错误率越小。 

关 键词： 概率隐蔽 通道； 概率 干扰； 传输错误率；带宽；仿真 
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Simulation analysis of probabilistic covert channels 
based on probabilistic interference 

GUO Yun-chuan u , ZHOU Yuan 3 , DING Li 3 , GUO Li 1 

(1 Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100019, China, 

2. Graduate University of Chinese Academy of Sciences, Beijing 100049, China, 

3. National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China) 


Abstract: Bandwidth and transmission error rate has received much attention in fields of covert chamiels. If a system does not 
satisfy BSPNI,PBNDC oi SPBNDC property, then probabilistic covert chaimels will be formed A simulation system was built 
to analyze their bandwidth and transmission enor rate about covert channels. For eveiy results of simulation, detail theoretical 
explanations were given. Tlie results show the bandwidth is closely related to software/hai chvare configuration，probability pa¬ 
rameter and scheduling times, when configurations and probability parameter are fixed, the bandwidth is inversely propor¬ 
tional to scheduling times. For the same process, the greater is scheduling times, the smaller is transmissioii error rate. 

Key words: probabilistic covert channels; probabilistic interference; transmission error rate; bandwidth; simulation 


l 引言 

从 1973 年提出隐蔽通道概念以来 [1] , 隐蔽通 
道得到了广泛的研究。隐蔽通道研究包括 [i3] : 1) 隐 


蔽通道 标识； 2) 隐蔽通道带宽 计算； 3) 隐蔽通 
道处理。其中，隐蔽通道带宽计算是隐蔽通道研 
究工作的$要环节， TCSEC 规定，在对 B2 级以 
上的高等级安全操作系统进行评估时，必须分析 
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隐蔽通道。 

为了计算隐蔽通道的带宽，文献 [4] 提出了一 
种 Markov 模型模来拟隐蔽通道的使用，并计算 
其最大带宽，这个模型基于如下 假设： 在隐蔽信 
息的传输中，0与1的分布相同。当0与1的分 
布不同时，上述模型不再成立，为此，文献 [5] 将 
计算具有非均匀迁移时间的有限状态通道容量的 
方法用于独立通道变量的有限状态隐蔽通道中， 
文献 [6] 认为仅仅分析独立的变量通道是不够的， 
因为很多通道变量具有依赖关系。实际上，为了 
实际测量隐蔽通道的带宽，精确测量是十分困难 
的，目前很少有关于隐蔽通道带宽测量成功的报 
道 [2] ,因此对隐蔽通道进行仿真分析是必要的。 
文献 [7,8] 对 ad hoc 网络路由协议的隐蔽通道进行 
仿真，文献 [9] 仿真了非概率干扰的隐蔽通道，提 
出了分步进行的隐蔽通道审计 方法。 但这些分析 
均没讨论概率隐蔽通道。 

无干扰模型 ( NI , non - inteiference ) 概念在文献 
[10] 中首次提出，无干扰模型可用來标识隐蔽通道 
和进程之间存在干扰则意味着隐蔽通道的存在。文 
献 [11] 提出了概率无干扰 （ PNI，probabilistic 
non - interference ) 的概念。文献 [12,13] 采用进程代 
数来描述和判定概率干扰系统，指出了不满足 
BSPM ( bi-simulation strong probabilistic non - inter ¬ 
ference ) > PBNDC (probabilistic non - deducibility on 
composition ) 和 SPBNDC ( strong probabilistic 
BNDC ) 性质的系统存在隐蔽通道。但如何仿真不 
满足这些性质的系统隐蔽带宽，这些带宽之间存在 
什么联系，目前还未见研究。虽然文献 [14] 采用概 
率模型检验器 FHP-mur <!>分析概率隐蔽通道的容量 
( capacity ), 但是模型检验容易出现状态爆炸问题。 

本文对文献[12，13]提出的不满足 BSPNI 、 
PBNDC 和 SPBNDC 性质的系统概率隐蔽通道进行 
了仿真，讨论了影响概率隐蔽通道带宽和传输错误 
率的因素，对仿真结果做出了理论解释，仿真结果 
表明： 概率隐蔽通道的带宽与硬/软件配置、概率调 
度因子和调度次数有密切的关系，当硬/软件配置 
和概率调度因子固定时，概率隐蔽通道的带宽近 
似地反比于调度 次数； 传输错误率与概率调度因 
子和调度次数关系密切，其近似值可由中心极限定 
理求得。 

本文的结构 如下： 第2节介绍相关背景 知识； 
第3节讨论概率隐蔽通道仿真的相关设计；第4节 


对概率隐蔽通道的带宽和传输错误率进行了仿真， 
并从理论上分析仿真结果；第5节是结束语。 

2背景知识 

由于篇幅原因，本节介绍本文所用到的概率进 
程代数的语法，其语义及详细介绍请参阅文献 

[12，13]。 

AType 表示动作类型 ； r 为内@动作(不可见动 
作)；似 CT = { a »| aeAr 沙 表示反应动 作集； 
04 CT = Z 7> pe -{ r } 表示生成动作集 ； ACT = RAct 
u 为动 作集； 用 ATipe / f 表示高级动作 

集， ATypei 表示低级动作集，其中 ATvpe H U 
AType L = AType - { r }. ATypeAType L =< Z , 以后用 
K 办’…表示高级动作，/， r …表示低级动作。 

定义1进程集界中的进程语法定义如下。 

P , Q .= 0 | n . P\P + p Q \ P \\ p s Q \ P \ L\Pll \A 

其中， P 表示终止进 程项； 万表示进程动作， 7 T . P 表 
示先执行 v 动作，然后执行 h p + P Q 为概率选择 
操作， P 为概率 因子； P \\ r s Q 为概率并发 操作； P/ a p 

为隐藏 操作； 乂为常量项。 

记户\^47>?^表示不执行 AType h 中的动作以 
及相应的后续动作的进程，表示隐藏 
中的动作后的进程， P x ~b ^ 2 表示进程 * Pi 和 
户 2 为互模拟关系，八^^心表示进程兄和厂为概 
率互模拟关系。 

设进程 P = ( l . 0 + p lJ '. 0 )+ q IJiJ'.O ,记 
P ^= l . 0 + p IJ '. O , P h = UiJ '.0 , 进程 P 的含 义为： 

以 <7 的概率执行 P a ，以 1_<7 的概率执行八；执行 
P a 时，系统以 p 的概率执行 /. 立，以 1- p 的概率执 
行/八立，因此整体上看，进程以 M 的概率执行 
/.0,以 <7(1- P ) 的概率执行^八立，以1_<7的概率执 
行/；1广立。设4为 P 中不考虑概率因子的进程， 
BP i ^ = (/.0 + IJ '. O ) + l . hJ ',0 , 因为4 \ A = (/.殳 + 
/ i '.0) + /.0 « B l .0 + U '. 0 « B (/.0 + /./'.0) + /. r .0 = PJh , 

即在不考虑概率的情况下，低级用户不可区分高级用 
户是否参与了执行 /* 动作，因此，4无干扰， 即^ 
不存在隐蔽通道。而对于 P 有 P \/* = (/4 + p 

/i-.o) + 9 /.o« ps /.o+'- ?+M // , .o ^ PB i.o + pq i.r.o^ PB 

(/.0+ p /7'.0)+ ? ir . o = p / h , 即在高级用户不参与 

执行 A 的情况下，低级用户以 l - q+pq 的概率执行 
/.0,而高级用户参与执行 A 的情况，则低级用户 
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以；^的概率执行/.立，因此，低级用户可通过观 
测/.^的频率来判定高级用户是否执行 / i 动作， 
从而来传输信息（低级用户通过观测某个或某 
些进程迹的频率来判定传输的信息，以后称这 
些进程为判定进程），因此， p 存在概率隐蔽通 
道。从上例可知，概率隐蔽通道是高级用户通 
过某种方式改变低级用户的概率视图，从而获 
得隐蔽通道。 


3概率干扰隐蔽通道的仿真方案 


文献 [9] 不能用来仿真概率隐蔽通道的带宽，因 
为对于概率隐蔽通道，低级用户不能通过低级动作 
的执行与否来判定高级动作是否 执行。 正如文献 [15] 
所述： 由于调度器的行为可能是概率的，攻击者可 
通过重复执行，观测其统计特征，从而获得信息， 
通过这种方式來建立隐蔽通道。因此模拟概率调度 
和进程行为来仿真计算隐蔽通道的带宽，仿真方案 
如下，其中 P 为概率干扰进程，//为 P 中的高级动 
作集。 

发送方发送数据的 方式： 发送方将文件以二进 
制方式读出，每次发送1位，接收方接收到8位二 
进制码后以二进制方式写入 磁盘； 每发送接收1 
位，调度器以概率的方式调度 P 进程 JV ( A ^>0) 次（以 
后用 W 表示每传输1位，需调度的次数）。除特 
别说明之外，若需发送的数据为1,则执行高级 
动作同时指示调度器执行后续动作，即执行 P / H ； 
若数据为0,则指示调度器不执行后续动作，即 
执行 PIH 。 

接收方接收数据方式具体如 下：用 
{trace 1 : pl ， trace 2 : p 2, … , tiaceMpM ) 表示判定进程集 
及其相应概率，其中 tracel , trace 2, …, ti ' aceM 表示在 
实际运行过程中低级用户所监测到的 M 个判定进 
程， php 2 , …， pM 为这些判定进程相应 概率； 
{ trace/Zl pH \ , trace//l .. pHl , … ， trace / ZM : p // M }, 其 
中 trace / Zl ， trace //2, … ， tracei £ W 表示在高级用户发 
送1的情况下，理论上，低级用户所能观测到的 
M 个判定进程， pH \, …， 为这些判定进 
程的相应 概率； { traceIl : pZl , traceZ 2: pI 2, - , 
traceLN . pLM }, 其中 traceil ， traceZ 2，...， traceZM 表 
示在高级用户发送 0 的情况下，理论上，低级用 
户所能观测到的 M 个判定进程， pLl , pL 2 ,-\pLM 
为这些判定进程相应概率。则接收方接收到数据 
. v 用如下方式 计算： 


■X = ] 0, 


fin ~ 

若 & ) 2 > -夕 h ) 2 

V j=i V !. = i 

若 JtMD 2 < JtM ~ Ph ) 2 

V 1=1 Y J =1 


域0, 若 Z (巧 - p h ) 



\N-\ 


⑴ 


为了讨论不同类型干扰下的带宽，使用以下 
进程 [12] 来进行 仿真： $ ( l .0 + p U '. Q )+ 9 IJtl '. O , 
P 2 =( r .(/.0 + p h l . G)+ l - p t .(1.0 + p r .0 »+ p h . J .0 , i > = 
t .( tJ 1 .0 + p hl 2 . G)+ p r .( hl l .0 + p r ./ 2 .0) 。其中 八 对应 
了 SNNI 而非 BSPM 的情况，对应了 BSPNI 而 
非 PBNDC 的情况， P 3 对应了 PBNDC 而非 SPBNDC 
的情况。实验中操作原语为在硬盘上建立删除文 
件，高级用户通过隐蔽通道向低级用户传输二进制 
文件 Source . bin ， 文件大小为1 218 byte , 其中0占 
45%, 1占55%,计时器精度为 1 ms 。 为了有较好 
的准确度，每次实验均独立重复10次，取其平均 
值为带宽或者错误率。 


4实验仿真分析 


4.1 硬软件环境对带宽的影响 

为了测试硬软件环境对带宽的影响，采用了两 
套不同的实验环境。环境 I 配置如下。 CPU : 1.80 GHz , 
RAM ： 256 MB , OS ： Windows XP Professional 。 环 
境 I 中除了运行仿真程序之外，还运行了其他应用程 
序。配置 I 中有4种电源管理方案，分别为“最高性 
能”、“最长电池寿命”、“计时器关闭”和“优化了 
电源”，后文称这些配置分别为“配置1.1”、“配置 
1.2”、“配置 1.3” 和“配置1.4”。环境 n 配置如下。 
CPU ： P 42.4 GHz , RAM ： 512 MB , OS ： WindowsXP 
Home 。 后文称该配置为“配置 n ”， 环境 II 中运行 
的应用程序只有仿真程序。仿真进程为 A 进程，低 
级用户通过观测执行/.立的频率來确定传输信息0或 

者 1( 后文对尺的仿真均是如此)，其中;^0.5，</=0.5, 
#50,实验结果数据如表1所示。 


表1 硬软件环境对带宽的影响 


配置 

平均带宽 /( biti 1 ) 

配置 1.1 

33.97 

配置 1.2 

20.54 

配置13 

30.12 

配置14 

32.73 

配置 n 

105.60 
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从表1可知，不同的硬软件环境，带宽相差非常 
大。即使相同硬件环境不同软件配置下，带宽可能相 
差巨大，如配置1.1~1.4,配置 1.2 的带宽只有配置 1.1 
带宽的60.6%,这表明对实际系统隐蔽通道进行仿真 
分析是必要，采用其他系统的数据来分析自己隐蔽通 
道带宽意义不明显。另外，配置 1.1 和配置 n 的数据 
表明，随着计算机性能的发展，隐蔽通道的带宽也越 
来越大，因此，对隐蔽通道问题应该更加重视。 

4.2 不同类型千扰、调度次数对带宽的影响 

文献 [12] 指出，若进程满足 PBNDC 性质，则 
要求该进程同任何高级 进程八 并发交互时不改变 
低级用户的概率 视图。 与及$并发交互时， 

低级用户的概率视图发生改变，因此， P : 不具备 
PBNDC 性质。仿真中用$ //!来传输1 , 

(( AIU.W 来传输1。若进程满 

足 SPBNDC 性质，则要求低级用户在系统每个状态 
的概率视图独立于该状态以前的高级动作是否执 
行。利用 SPBNDC 性质来形成隐蔽通道，要求高级 
用户能判定进程的调度情况。在八进程中，记 
P 30 = r .( ri , .0 + p h.h 0), .0 + p ri 2 .0) , I(J 

P ,= P„+ P P n , 若高级用户能判定系统是否正在调 
度执行八0 ( P 31 类似)，则高级用户可通过决定是 
否执行 A 來改变低级用户的概率视图，从而形成概 
率隐蔽通道。仿真中用 (( P 30 \ h+ P P 3 i )/ h ) 来传递 
0,用 ( P 3 。+ p P 31 )//« 来传递1。利用和 P 3 來传递 
信息的带宽随 W 的变化仿真如表2所示，其中 
尸0.5, <7=0.5。电源管理方案采用“配置 II ”（后文 
的实验中，所有的电源管理方案均采用“配置 II ”)。 


表2不同类型的干扰对带宽的影响 ( p =0.5，</=0.5) 


各进程的平均 
带宽 /(bifs a ) 



N 



20 

40 

60 

80 

100 


262.18 

131.60 

85.84 

64.65 

51.524 

Pi 

31379 

156.83 

104 47 

78 89 

63.33 

Pi 

148.20 

74.95 

51.20 

37.52 

30.91 


从表2可知， W 相同时， 心的带 宽大于^的带 
宽， A 的带宽大于 P 3 的带宽。实际上导致八、心 
和带宽不同的原因是每传输1位的进程平均执行 
时间不同，其详细解释见下节。同时，由表2可知, 
对于同一进程，在硬软件环境和概率因子固定的情 
况下，平均带宽〜常数/毎传输1位所调度的次数 JV 。 
其道理是直观的，在除#之外其他硬软件环境不变 


的情况下，每传输1位调度#次所需时间近似于每 
传输1位调度1次所需时间的#倍，因此，其带宽 
也近似于每传输1位调度1次的带宽的 1/ AT 。 

4.3 概率因子对带宽的影响 

考察概率因子对带宽影响的实验中，采用 A 
进程，其中 N =50, 采用实验结果数据如表3和表4 
所示。 


表3概率因子 (/ 对带宽的影响 ( p =0.5, JV =50) 


q 

0.20 

040 

0.60 

0.80 

1 00 

平均带宽 
/( bit - s * 1 ) 

97.87 

10343 

109.49 

115.72 

122.46 

表 4 

概率因子对带宽的影响 勿 =0.5, iV =50) 


P 

0.20 

0.40 

0 60 

080 

1.00 

平均带宽 

/ ( bit . s 1 ) 

97 54 

10307 

109.02 

115 59 

123.30 


表3和表4的结果令人惊讶，因为表面上看带 
宽与概率因子无关，但实际上带宽与概率因子存在 
很大的关系。解释如下，设每次调度的进程平均执 
行时间为 . r ， 平均通信时间为 y ， 每传输1位需调度 
AT 次，则平均带宽为 

BandWidth =--- (2) 

Nx{x + y ) 

设进程 A 中原语的执行时间为 r (本例中为拇 
写-•次磁盘的时间），传输0时，其实际调度进程 
SP \{/44(/4+ p /./'^)+ 9 /^, 因此，其每次调度 
中进程的平均执行时间 x a =l~q+pXq+2X(q~pXq)) 
Xz=(l+q-pX q )Xz ； 传输1时，其实际调度进程为 
?/{/»}4(/.0+ p /./'.0)+« Lt . I ：.0, 因此，其每次调度 

中进程的平均执行时间 . v != ( qXp^lXqX (1- P ) 
Xq +3 X ( l -< 7 >) X z =( i ~ p X q - q ) Xr » 设所传输的 
文件中 0 的概率为 a ， 1的概率为 L 则毎次调度， 
进程的平均执行时间为 aX ( l + p - pXq ) Xz + bX (3 -p 
Xq - q ) Xz . 所以乃进程的带宽为 
BaiuiWldth B = 

■a 


Nx(ax(l-\-q- pxq)xz-\-bx(3- pxq-q)xz-\-y) 

由于所传输文件的 0 和 1 的概率近似相等，则 
进程执行的平均时间为 （2- pXg ) Xr , 因此/^进 
程的带宽为 

BandWidth „ =--- (4) 

^ Nx (,(2- pxq)xz + y ) 
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从式 (4) 知， 当；? 不变时，<7越大，带宽越大； 
当 <7不变时， p 越大，带宽越大。这与表3和表4 
是相吻合的。式 (4) 也解释了表2中的 现象： 八 中， 
^0.5, 9=0.5,所以/^中毎次调度，进程的平均执 
行时间为 1.75 二 心中， 传递1时毎次调度进程的 
执行时间为 (2 Xf 2 Xp X ( l - p )+2 X ( l - p))X z =2 z , 
其中 r 为每条原语的平均执行时间，传递0时每次 
调度进程的执行时间为=，若所传输的文件中0和1 
的概率相等，则 厂中， 每次调度进程的平均执行时 
间为1.5二类似地， P 3 中每次调度进程的平均执行 
时间为3=,因此，由式 (4) 知， W 相同时， P : 的带宽 
应大于 Pi 的带宽， A 的带宽应大于 八 的带宽，这 
与仿真结果相符。式 (4) 说明隐蔽通道的带宽不依赖 
于干扰类型。 

4.4 调度次数、概率因子对位错误率的影响 

当 N —， 进程实际执行的概率等于其理论上 
执行的概率。然而实际应用中#不可能取无穷大， 
因此，可能出现位传输错误，表5~表7给出 W 和 
概率因子对位错误率影响的仿真结果。 


表5 iV 对位错误率的影响 (, p = 0 . 5 , q = 0 . 6 ) 


N 20 

40 

60 

80 

100 

位错误率/% 3.346 

0 504 

0.079 

0.017 

0.001 

表6 对位错误率的影响 （JV=30, p = 0 . 5 ) 

q 0.20 

040 

0.60 

0 80 

1.00 

位错误率/% 0 

0017 

1 131 

14.920 

49745 

表7 p 对位错误率的影响 (iV=50,</=0.8) 

p 0.20 

040 

0.60 

0.80 

100 

位错误率5 538 

8.525 

8 112 

5916 

1.907 


表5〜表7表明，不同的调度次数、不同的概率 
因子，其位错误率 不同。 值得注意的是，表7中， 
从表面上看， p 似乎不应该对位错误率产生影响， 
因为进程中传递0时以 1- q + pXq 执行 /. 立，传递 
1时以 pXq 的概率执行 /. 立，而 1- q + pXq-pX 
q = l ~ q , 这与 P 无关。 但实际上/^进程形成隐蔽通 
道时传输位错误率不仅与 iV 和 g 有关，而且还与 p 
有关系的，解释如下。 

设为传输信息0时应执行/.立的概率， M 为 
传输信息1时应执行/.立的概率，其中网<仰，则传 
输0时，信息传输正确的期望值为/如标准差仍为 
> 0 (1_« 0 );传输1时，信息传输正确的期望值为 


/ A > 标准差 q 为 ^(1- m ,) ，记 d =\^-^ i x \ l 2, u t 表示 

第 i 次调度正确的概率，为调度#次正确的概率。 
则由式⑴可知，在实际传输信息为1的情况下，信 
息接收 JH 确的概率 [13] 为 

( \ W 、 

P(Ji I -Ml ^ d )= P \ ^：d (5) 

V-^ ■=! / 

其中， A 表示高级用户传输数据1， M 表示低级用 
户接收的数据为1。 

由中心极限定理知随机变量 

Z ^^- NxMJyfNa , ⑹ 

2=1 

具有近标准正态分布。因此 

1 N \ 

_?(«„ -从 <d) = P —x^?/, — Mi < d 

^ P ( Z N ^ dxyfN / a l ) = </>( dxy [ N / a l ) (7) 

其中，为标准正态分布函数。 

同样可知，在实际传输信总为0的情况下，信 
息接收 JH 确的概率为 
P ( y 0 1 Xo )= P (^ - ^ d ) 

( I n \ ( I w 、 

= P , /^ ~ T 7 x 2 m - T 7 x 2 m i ~^ 

I N ti J \N tf ) 

^l-^(-dxyfN/a 0 ) = ^dxyfN/a 0 ) ( 8 ) 

其中， x Q 表示高级用户传输数据0, m 表示低级用 
户接收的数据为0。 

设: c 为二进制文件中1的概率， l-.v 为0的概 
率，则信息传输中位错误的概率为 
=i-(^x?Cv 1 |x 1 ) + (1 - 咖 PO 0 丨、 )） 

= 1- .rx </>{d x \[N / o - !)- (1 -.v)x (j>{d x \[N/a 0 ) (9) 

计算中，的值可由标准正态分布表得到。 
表8~表10分别给出与表5~表7相对应的理论位错 
误率。对照可知理论位错误率和实际位错误率非常 
接近。 


表8 7V 对位错误率影响的理论值 (p=0.5, q = 0 . 6 ) 


N 

20 

40 

60 

80 

100 

理论位错误率/% 

2.559 

0.289 

0.036 

0.005 

0.001 

表9 g 对位错误率影响的理论值 （iV=30, p=0.5) 

q 

0.20 

040 

0.60 

0.80 

1 00 

理论位错误率 

0 

0 002 

0.842 

13.350 

0.500 




表 10 P 对位错误率的影响 (JV=50, q=0.8) 


P 

0.20 

0.40 

0 60 

0.80 

1 00 

理论位错误率 

5.127 

7.308 

7.170 

4 693 

1.764 


5结束语 


通过概率隐蔽通道的仿真以及理论分析，可知以 
下几点。 

1) 不同的硬软件环境，概率带宽相差很大，因 
此应该采用自己的实际系统來测量隐蔽通道的带 
宽，采用别人的数据意义不明显。 

2) 在相同硬软件环境下，隐蔽通道的带宽与每 
传输1位所调度的次数和概率因子大小均 有关； 在 
概率因子不变的情况下，概率隐蔽通道的带宽近似 
反比于每传输1位所需调度的次数。 

3) 在相同硬软件环境下，概率隐蔽通道传输 
的位错误率取决于与每传输1位所调度的次数和 
概率因子 大小； 在概率因子不变的情况下，每传 
输1位所需调度的次数越大，概率隐蔽通道传输 
的位错误率 越小。 当调度次数较大时，概率隐蔽 
通道传输的位近似错误率可由调度次数和概率因 
子根据中心极限定理计算得到。 

从式 （4) 和式 （9) 知，若要利用概率隐蔽通 
道来传递信息，不能过度追求准确率或带宽。若过 
度追求准确率，可能会导致带宽降低，从而很难传 
输信总；若过度追求带宽，可能会导致准确率降低， 
从而信息传输失去意义。 
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分布数据库高效复制的实施方案 

王延青，殷丽华，方滨兴 

(哈尔滨工业大学计算机信息网络中心，黑龙江哈尔滨 150001) 


摘 要： 为了解决分布数据库复制过程中信息传输量大、复制效率低、数据完备性难以保障等问题，提出一 
种“拉推式”分布数据库复制方案，即由信息控制中心采集各个分区的日志，合并后再逐个分发至各个分区. 
该方案基于日志，数据传输量最小，因而即使在窄带宽网络（如拨号连接）环境下仍然适用；通过模拟事务处 
理的方法，大大增强了复制过程容 错性； 动态远程存储过程的使用，增强了复制过程的效率和可靠性.经过 
哈尔滨市劳动局就业信息网工程 7 区 12 县数据库复制的应用，证明该方案简捷、高效，有很高的实用价值. 
关 键词： 数 据库；复制； 拉 推式； 冲突解决 
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An excogitation for efficient replication of distributed databases 

WANG Yan-qing, YIN Li-hua, FANG Bin-xing 
(Computer Information Network Center , Harbin Institute of Technology ， Harbin 150001, China ) 

Abstract : To solve some problems in the replication process of distributed databases such as mass data trans¬ 
fer, low efficiency and difficulty to keep data integrity, a replication excogitation named Pull and push’’ is 
presented. In this method, the information control center collects log data from each subzone, merges it and 
then distributes it to each subzone again. The method is based on log and only changed data will be trans¬ 
ferred, so it can be applied even in a narrowband network like dialup. Also, simulated transaction makes the 
replication more tolerant to fault. Moreover, the usage of dynamic remote stored procedure enhances the effi¬ 
ciency and reliability of replication. This method has been applied to a MIS project successfully, which proved 
that this excogitation is simple ， highly efficient and practical. 

Key words ： datadase ； replication ； pull and push ； conflict solving 


随着 Intemet/Intranet 技术的飞速发展，数据 
库应用技术已经日趋成熟.尤其客户/服务器体 
系结构下的关系型数据库，在信息化建设过程中 
发挥着越来越重要的作用.然而，随着数据库应 
用范围的扩大，便岀现了位于不同服务器上的分 
布数据库体系结构，以及随之而来的数据库之间 
的数据复制需求. 

分布数据库复制技术主要有快照复制、事务 
复制、合并复制.本文提出的“推拉式”复制技术， 
综合了“快照复制”和“合并复制”的优点. 


收稿 曰期： 2002 -05 -18. 

作者简介： 王延青男，工程师，博士研究生 ; 
方滨兴 （ I960 -), 男，教授，博士生导师 . 


1 “拉推式”复制的原理 

分布数据库复制的拓扑结构理论上是完全 
图， n 个节点的复制应该有个复制任务.然 
而，为了简化管理程序，减少系统的维护工作量， 
降低对各分布节点的要求，采用星型结构是比较 
适合的.即由一个控制中心系统在后台以一定的 
时间间隔进行信息的采集及发送，完成数据的同 
步复制，从而保证所有节点数据库的数据都是一 
致的.该系统只需在控制中心的主服务器上运 
行，各分区节点的数据库服务器只做一定的配置 
即可，无需人工 管理. 具体地说，“拉推式”分布复 
制系统的原理可用如下步骤描述： 

1) 初始化.最开始时控制中心服务器和分 
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区服务器上都没有数据，此时不必做数据初始化 
工作 • 当系统运行一段时间后，每增加一个新节 
点，便将控制中心数据库服务器上的数据作为 
“母本”，全部转储到该分区节点的数据库服务器 
上形成一个“副本”，清除日志数据，完成数据初 
始化工作. 

2) 日志 采集. 控制中心系统以一定的时间 
间隔完成日志数据的采集工作，即轮流登录至各 
个节点的服务器上，将每个服务器上的变化数据 
采集过来，完成“拉”动作. 

3) 日志 分发. 完成所有“拉”动作后，再次轮 
流登录至各个节点的服务器上.当成功联接某一 
节点数据库后，合并从其他节点采集而来的曰志 
数据，并写至该节点数据库中，完成“推”动作. 

经过上述3个步骤，便完成了数据库的一个 
复制 周期. 图1是以4个节点为例的复制原理 
图，其中 （1) ~(8)为过程顺序，实线表示“采集 
日志”动作，虚线表示“分发日志”动作. 



图1以4个节点为例的复制原理 

2关键技术 

2. 1基于日志的最小传输 

随着数据库数据量的日益增长，加之网络带 
宽的束缚，如果每次复制过程必须传输全部数据， 
那么不仅效率很低而且也是不现实的.单纯的数 
据覆盖会造成目标数据库本地更新数据的丢 
失 [1] ，因此最好在每次复制时只处理各节点数据 
库中更新的部分，即应用基于日志的复制技术. 

为了实现上述最小数据传输，需要获取发布 
服务器端数据库中被改变的数据，其实质就是得 
到事务处理的 Transact 语句 （ INSERT 、 DELETE 及 
UPDATE ). 对于文件型数据库（如 xBase 等），是 
无法获得日志数 据的； 对于当前主流的大型数据 
库（如 Sybase SQL Server 或 MS SQL Server 等），尽 
管有日志设备或日志文件，但因为 DBMS 内核未 
公开及系统不提供该部分的开发接口等原因，获 
取日志极其困难.故此，从应用端着手解决比较 


可行，即在数据库上建立存贮日志的表单，客户端 
每次改变数据库数据的同时，也向日志表单中添 
加一条描述该动作的记录，并且通过事务处理确 
保上述两个动作能够同时成功. 

上述获取日志方法的优点 是:① 与后台数据 
库管理系统类型 无关; ②实现难度相对 较低; ③ 
便于管理人员监视、调试或 干预; ④复制的信息 
量最小.缺点是:①需要存储日志数据，略有开 
销上的 增加； ②可扩充性略差，即每增加一个参 
与复制的表单，都要添加与该表单数据修改操作 
有关部分的程序代码. 

2.2 模拟事务处理提高复制系统的容错性 

事务处理是大型数据库管理系统中保证数据 
完备性的关键技术.一个事务是由一条或一组 
Transact 语句组合在一起的单一工作单元，这一 
单元中所有动作要么全部成功，要么全部失败. 

尽管事务处理有很多优势，然而事务处理的 
应用却被限制在单一数据库连接中，即不能定义 
一个涉及两个（或多个）数据库的事务.而分布数 
据库环境下必然涉及到同时操作多个数据库，比 
如从某节点数据库中读取日志数据存储至控制中 
心数据库中，并将该节点读取出的日志数据删除, 
这两个动作道理上应该被定义为一个事务，否则 
任何一个动作的失败都会带来信息的混乱甚至造 
成麻烦，尤其在利用电话线的低速网络传输时，可 
能会有各种传输意外中断的情况发生. 

本文提出的方法是通过两阶段提交，用两个 
事务的定义来模拟一个事务，利用该法可以避免 
数据库存储失效情况发生，其基本流程图如图2 
所示. 

该方法唯一存在问题的地方是在图2的“异 
常出错”处，即当两个事务内部的所有动作都成 
功，但由于两个事务提交的顺序不同，当其中一个 
事务提交成功，而另一个事务提交失败时，模拟事 
务过程便会失败.对上述异常情况的补救方法 
是，根据实际情况决定★步骤后面提交事务顺序 
的先后.比如事务1为删除动作，事务2为追加 
动作，事务2中所含数据的两次追加并不能造成 
信息的混乱（如主键唯一等限制），而事务1的删 
除却是无法补救的，这种情况下应该先提交事务 
2后提交事务1，才能够保证数据库的完备性. 

2.3 动态远程存储过程的应用 

存储过程是 Transact - SQL 语句的预编译集 
合，这些语句在一个名称下存储并作为一个单元 
进行处理，是大型数据库的特性之一.在一个低 
速且线路质量并不十分理想的网络环境下，操作 
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远程数据库是比较困 难的. 比如大量的 Transact 
- SQL 语句都要在远程服务器上运行，如果传送 
一条执行一条的话，不仅效率较低，而且会由于电 
话线路的异常中断造成数据的混乱，即使有事务 
处理作为保障，也难免会出现系统的失误. 



图2模拟事务处理原理图 
综合上述因素，考虑将一系列的 Transact - 
SQL 命令捆绑成一个远程存储过程，然后将该存 
储过程传至远程服务器后在远程服务器上执行. 
这种方法的采用，不仅增加了系统的鲁棒型，还可 
以大大地提高了数据库的复制效率. 

3问题及其解决 

3.1 水平分区与冲突解决 

如果不加限制，在两次复制间隔内很有可能 
出现两个（或多个）节点更新了同一条记录的情 


况，这样在复制时便出现了复制冲突.解决冲突 
的方法不外乎以下 几种： 

1) 人工干预.在出现冲突时系统给出提示， 
由人工判别做出取舍. 

2) 时戳判别.在冲突发生时系统根据记录 
修改时间的先后做出取舍 U] ，这一点上有些类似 
“我的公文包”的复制原理. 

3) 水平分区.将所有数据以一定的规则进 
行水平分区，每个节点只能拥有本区数据的修改 
权限，其他分区的数据对该区来说是只读的. 

本文所用的冲突解决方法属于“水平分区” 
法，即限制每个分布节点，只允许其修改属于自己 
分区的数据，对其他分区的数据只有读权限.这 
种方法比较可靠，可以完全避免冲突的发生. 

3.2 异常情况及垃圾处理 

尽管系统在设计上尽量避免由于异常情况造 
成数据丢失或混乱，但数据传输过程中的未知情 
况或 DBMS 本身的故障也在所难免.这些异常情 
况便容易产生不同步数据的存在，不妨称之为 
“垃圾”.例如，某节点数据库因为某种原因丢失 
两条记录，那么，这种不同步情况会一直保持下 
去.如果没有人工干预，这种不一致现象只会增 
加不会减少. 

目前还没有比较有效的处理这种“垃圾”的 
方法，仅仅靠类似 “SELECT count ( * ) FROM ta - 
blename ”来比较各节点数据记录数目是比较粗略 
的，因为数据的不一致不仅仅表现在记录数目上 
的不同，同样一条记录字段值的不同也是不一致 
的表现. 

处理异常情况产生的“垃圾”，本文提岀两种 
方法可供 参考： 

1) 定期作比较运算，查出不同步数据，在计 
算机提示下由人工进行调整. 

2) 全部刷新，以信息最可靠的主服务器数据 
为准,覆盖具有“垃圾”数据节点的所有数据. 

上述两种方法都以浪费大量网络带宽和 
CPU 资源为代价 • 比较运算查错较慢，纠错较快， 
但需要设计性能较高的比较运算 程序； 全部刷新 
无须查错，但对低速网络来说，大量的数据覆盖将 
耗费很长的时间，也不太 可取. 因而应该提高系 
统的容错性，从根本上避免“垃圾”的出现. 

4 结语 

在借鉴世界上主流的数据库管理系统复制技 
术的基础上 [2 ’ 3] ，本文提出了一种分布数据库复 
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图 1 位移边界条件下裂纹动态应力强度因子和时间的 
关系 

4 结论 

利用关系式 */(*， y ， t ) = t " f ( t / x , t / y ) ，且 n 为 
整数，就可以把自相似问题转化为零次齐次函数， 
即自相似函数.因此，凡是位移边界满足这个函 
数关系的，均可通过式 (6) 、（7)和 (9) 对以 z 为变 
量的齐次函数类型进行求解. 


因子的值趋近于无穷大，此时是裂纹的开裂状态， 
具有明显的奇异性;在0~ 0.02 ms 时间间隔内的 
动态应力强度因子的衰减幅度远大于 0.02 - 
0.04 ms 时间间隔内的衰减幅度，具有明显的衰 
减 特性； 而后随着时间的延长衰减的趋势逐渐 
减慢. 

同样的，把参数代人式 （ 15 ) 可以得到类似的 
结果.利用本文的解可以很容易地得到相应的静 
态问题的解 [11] ，这只需令 

p — ► 0 t ^ oc V —-► 0 pt -* a Vt ► c , 

(16) 

将式 （16) 代入以上各式即得正交异性体长 
为 2 c 的静裂纹在 x = 0以及* = a 处发生位移问 
题的解. 

5.0 
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制解决 方案. 基于日志使得信息传输量最小，模 
拟事务处理增强了可靠性,动态存储过程的使用 
保障了高效性.该方案不仅适用于带宽较高的网 
络环境，在带宽较低的网络环境也可使用.同时， 
该方案具有普遍的借鉴价值，使其可适用于其他 
管理信息系统及电子商务的数据库复制环境中. 
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BitTorrent 系统节点行为研究 


叶麟，张宏莉，苏马婧，李飞 

(哈尔滨工业大学计算机网络与信息安全技术研究中心哈尔滨 150001) 


摘要 


SIJ 量分析 P 2 P 文件共享系统是解决 P 2 P 优化、网络管理等问题的基础。当前 P 2 P 网络设计日趋复 
杂，并且部分运行机制直接导致测量数据不完整或测量周期过长，比如 BitTorrent 文件共享系统。 
针对这一问题，本文抽象出 BitTorrent 系统的 3 个测量层次，包括索引测量、节点测量和内容测量， 
并重点解决了 3 个层次中的测量难题，设计实现了一个面向 BitTorrent 的测量系统。在此基础上， 
本文对 BitTorrent 系统进行了持续测量，并重点分析了 BitTorrent 系统的节点 行为： 节点演化规律 
和节点到达模型。测量结果表明，节点演化规律和节点到达均呈现强烈的周期性。为此，本文改进 
了节点到达模型，新模型与实际测量数据拟合效果较好，进一步修正了节点到 达模型 。 

关键词对等 网络； BitTorrent ; 测量；演化；节点到达 


1引言 

主机性能的不断提升和网络带宽的快速增长推动了 
对等网络 ( peer - to - peer , P 2 P ) 的飞速发展，尤其 BitTorrent 
( BT ) 文件共享系统已发展成一种“统治地位”的重量级应 
用，用户数量达到百万级 11] ，其流量占据了 P 2 P 总体流量的 
53% p 】， 是 P 2 P 网络乃至当前互联网中最为广泛的应用之 
一。虽然 BT 系统在内容分发和流媒体等方面已得到广泛 
应用 [3 , 4] ，但其性能仍为人所关注。此外，随着分布式哈希表 
(distributed hash tables ， DHT ) 的部署 ， BT 系统也从单一的 
中央索引结构过渡到混杂网络结构，性能也发生了变化。 
特别地， P 2 P 网络是一种自组织、动态性极强的覆盖网络， 
节点(或主机)相互共享却不受约束，因此了解 BT 系统的 
节点行为尤为重要，有助于理解资源的动态变化过程以及 
性能变化规律，从而进一步优化设计提高性能，同时亦为 


* 国家 “863” 基金资助项目 （ Mo. 2009AA01Z437) 、 国家 “973” 基 
金资助项目 （ No. 2007CB311100) 


网络模拟、安全管理等方面提供基础性支持。 

节点行为涵盖众多方面，比如节点数量、节点在线时 
间、节点分布(地理或类型)、节点到达时间间隔等。 BT 文件 
共享系统的节点行为是当前研究的热点，其中也包括为了 
获取数据而不可或缺的测量研究，好的测量体系和方法可 
以获取更加全面真实的数据，保证结果的正确性。 Guo 等 
人 [5] 的研究表明节点到达数目随时间呈指数级减少，而其 
以天为统计周期的宏观粒度无法描述尤其是传播早期的 
节点到达数目变化规律，使得在细粒度刻画上有所欠缺。 
Izal 等人通过 Tracker H 志研究节点数目变化规律、会话 
长度分布、地理位置分布以及不同类型节点 ( seed / leecher ) 
的上传流量比例，结果表明 BT 系统能较好地支持内容传 
播并足以应付早期的 “ Flash - Crowd ” 效应，但其单一种子 
(Linux Redhat 9) 的数据无法代表当前不同流行度种子的 
相异性质。 Daniel 等人 [7 蘭 重点从会话角度发现 BT 系统与 
其他 P 2 P 系统类似，也符合“重尾”性质。 Pmiwelse 等人 [8] 则 
发现仅有少数共享节点(17%)的会话时长多于1 h , 同时也 
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发现节点请求到达率符合泊松分布的假设与实际测量结 
果并不相符。 

此外，节点到达模型的研究亦成为研究人员的关注热 
点。 Yang 等人 [9] 系统分析了 P 2 P 网络的服务能力 (service 
capacity )， 将文件传播过程分为两个阶 段:瞬 时阶段和稳定 
阶段，并且分别为瞬时阶段建立分支过程模型和为稳定阶 
段建立马尔可夫链模型，其中后者假设节点符合泊松到 
达。研究发现多块并行下载确实能提高在“热点”时期的共 
享性能。 Qiu 等人 [1 ° ] 亦在节点符合泊松到达的前提下应用 
了一个简单流体模型分析 BT 系统文件分布的稳定阶段， 
结果表明在瞬时和稳定阶段 BT 系统均能保持较高的系统 
吞吐并验证了当前激励机制的有效性。 Fan 等人 [111 利用随 
机微分方程的方法为 BT 系统建立了一个数学模型，该文 
同样假设新节点以泊松过程到达。 Guo 等人则在流模型 
基础上分析了 BT 系统性能，发现 BT 系统仍存在瓶颈，并 
通过 Tracker Overlay 增强种子间的协作共享。 

本文通过分析已有的研究工作，设计并实现了一套基 
于主被动相结合的 BT 测量系统，涵盖了种子采集、共享节 
点探测、文件片断收集、被动收集等多项测量功能，并在实 
际测量基础上重点分析了节点演化规律和节点到达模型。 

2 BT 测量系统 

P 2 P 文件共享系统普遍采用两级索引维护文件的发 
布、检索与共享。两级索引是指 P 2 P 系统将包含描述的文 
件元信息和文件的共享节点信息作为独立索引保存或检 
索，典型的 P 2 P 共享过程通常使用元信息作为输人，进而 
选择文件索引后才能实现共享。此外，本文将内容片断也 
看作一种索引，所以一个完整的 P 2 P 测量系统需涵盖索 
引、节点和内容分布3个层次。 

(1) 索引测量 

以关键词或类型等描述信息收集文件名称、标识、大 
小、类型等文件元信息。 

(2) 节点测量 

以文件标识(通常为有效的文件哈希)查询共享节点 
索引。 

(3) 内容测量 

以共享节点索引为基础，获取文件片断的分布。 

2.1 索引测量 

大多数 P 2 P 系统均提供内容检索机制，但 BT 系统却 
支持有限，原因在于种子文件分布在 BT 系统外的 Web 站 


点，用户需要从多个发布站点查找种子文件后再进行下 
载。因此，如何快速有效地获取种子文件是 BT 测量的首要 
问题。本文改进基于 Nutch 的网络爬虫系统以适应种子采 
集，重点解决以下问题。 

(1) 无关网页过滤 

一般站点均包含大量与种子文件无关的链接，如说明 
或广告等，其抓取耗费大量带宽资源。通过分析大量 BT 发 
布站点的组织结构发现 ：同一 站点的 URL 具有相似性，可 
用一个或多个正则表达式描述。因此，本文对网页链接进 
行划分和聚类，抽取正则表达式并设计过滤规则，并在实 
际抓取前根据过滤规则决定一个网页是否抓取。此外，过 
滤规则不但有一定的泛化能力，而且可根据已抓到的网页 
和种子的数量、状态进行动态调整，指导后续抓取过程。 

(2) 复杂网页解析 

复杂网页是指采用 AJAX 等复杂技术实现的动态网 
页，一般需要用户参与才能触发相应动作并获取真实内 
容，传统网页爬虫难以处理。当前发布站点大量采用 AJAX 
技术，如 BT @ China 联盟，使得种子自动获取难度加大。对 
AJAX 的处理主要包括解析 JavaScript , 获取相应事件、模 
拟用户动作以及抽取动态内容。为此，本文实现一个 AJAX 
网页解析引擎用于辅助解析网页，如图1所示。 
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图1 AJAX 网页解析引擎示意 

2.2 节点测量 

BT 系统的节点索引采用随机返回策略响应查询，其 
目的是平衡共享节点间的负载，但却给节点测量带来不小 
的难题 。一 方面，单次测量通常无法得到 BT 系统的全部节 
点，甚至在两次或多次连续查询中，返回结果也不保证相 
异，极端情况下两次连续查询的结果完全相同，因此一次 
完整测量需要重复探测直至结果集合不再增加 为止; 另一 
方面，随机返回策略使得测量方法本身无法收敛或收敛时 
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间过长，直接影响了结果的有效性。因此好的测量方法能 
够在误差和收敛效率上取得均衡。 

为了限定误差和选定合理的收敛条件,本文作如下分 
析，假设节点索引每次返回的节点数目为》，节点索引总 
数为 iV ， 前 m -1 次探测已发现节点数目记为 r ( m - l )。 若 
n >/ V ， 首次测量即可获得全部节点，即 T (1)= N 。 若 n < N ， 
则第一次测量已发现节点数目为由于随机返回 
的节点可能已存在，在第》1次测量中，返回未发现节点 
的概 率为： 

N - T ( m - l ) ⑴ 

N 

因此，在第 m 次测量后已发现节点数目 T ㈣ 为: 

T ( m )= T ( m - l )+ ^ ^ xn , m>l (2) 

本文定义节点覆盖率为已发现节点占索引总体的比 
例，记为 P ( m )， 其表明了数据的完整性。在第 m 次测量后 
节点覆盖率 P ( m ) 为： 

m>0 ( 3 ) 

v ; N N N 


表 1 给出了不同参数条件下达到相应节点覆盖率需 
要的探测次数，例如，在每次返回50个节点的情况下，要 
完成探测5 000个节点规模的种子需要大约230次才能 
达到90%的节点覆盖率。整个过程可能需要8~10 minJJ 
量时间较长，为了加快测量过程，本文在 BT 系统中注册虚 
假身份，伪装成不同节点进行并行探测。 


表 1 不同 P 、 n、/V 取值下需要的探测次数 m 
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当满足90%的节点覆盖率时，由式⑴和 (2) 可以推导出 
探测返回的未发现节点数目 应为： 

{N-9NnO)INxn=n/lO (4) 

因此当每次探测返回未发现节点数目小于 n /10 时，说 
明节点覆盖率已达到90%。为了消除随机返回策略带来的 
影响，本文采用连续5次探测后所返回未发现节点数目均 
小于 n /10 作为探测的收敛条件，实际测量过程中一般可 
达到95%以上的节点覆盖率。 


2.3 内容测量 

对于某个资源而言，参与共享的节点均含有其对应内 
容的文件片断分布(或索引)。为了获取文件片断分布，本文 
主要采用以下两种方法。 

(1) 主动测量 

主动测量方法在节点测量的基础上，模拟客户端向其 
他共享节点主动进行交互获取文件片断。 

(2) 被动测量 

为了克服部分节点无法连接，例如位于网络地址转换 
(network address translation , NAT ) 或防火墙之后的节点，本 
文采用在 Tracker 或 DHT 网络中注册大量虚假身份，被动 
等待其他节点连接。由于大量虚假身份的存在，其他节点 
能以高概率主动连接到测量系统，从而达到被动方式的文 
件片断收集。 

此外，本文的 BT 测量系统还可以被动捕获分析 
Tracker 与节点间的通信，用于分析节点和资源。总之，该系 
统涵盖了种子采集、共享节点探测、文件片断收集、被动收 
集等多项测量功能，其结构如图2所示。在此基础上，本文 
选取了 50个刚刚发布的种子，分别使用5台主机进行测 
量，每次探测间隔大约为4 min 。 通过近一个月的持续测 
量，经过整理分析，本文将50个种子分为两类，一类是热 


网站 


流量 



主动 


被动 


图2 BT 测量系统示意 

表 2 两种不同热度的种子对比 


种子 

热点资源 

一般资源 

类型 

视频(电影） 

视频(动漫） 

大小 

457.06 Mbyte 

176.15 Mbyte 

发布网站 

bbs . wofei.net 

bt . ktxp.com 

发布时间 

2009-4-20 16:39 

2009-4-20 15:56 

探测开始 

2009-4-20 16:41 

2009-4-20 15:58 

探测结束 

2009-5-19 22:03 

2009-5-19 22:05 

Peer 总数 

28 856 

6 315 
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度较高的种子（节点总数不小于15 000)，另一类是一般种 
子丨节点总数小于15 000) 0 本文选择两个不同热度的种子 
进行重点分析，分析方法适用于所有种子，其详细信息如 
表2所示。 

3节点演化规律 

节点演化规律是指 P 2 P 系统中共享节点数目随时间 
变化的动态过程。共享节点数目是衡量其服务能力的重要 
指标，参与共享文件的节点越多，共享性能就越高，就越能发 
挥 P 2 P 的优势。本文重点考察了 BT 系统的节点演化规律。 

图3和图4给出了热点资源和一般资源的节点数目 
以及种子节点数目变化曲线，图中横坐标代表从测量开始 
的记录时刻，纵坐标代表该时刻的节点数目。对比图3和 
图4,可以看出共享节点规模是种子节点的5~10倍。首 
先，整体而言，热点资源的节点数目随时间先增加后下降， 
且前期波动剧烈，后期波动 减缓;而一 般资源则下降迅速， 




且波动小。 

其次，本文统计了图3曲线中两种资源的波峰和波谷 
对应时刻和数值，波峰对应节点数目的局部极大值，而波 
谷对应节点数目的局部极小值。图3中热点资源有明显的 
6个波峰和波谷 (24 和25号的部分数据缺失），如表3所 
示。一般资源有明显的2个波峰和波谷，如表4所示。通过 
观察发现,波峰出现时间一般在晚上的19:30—23:00，说明 
在夜间休息之前用户进行大量的文件下载;波谷出现时间 
一般在早上的5:30—8:30,说明清晨用户参与度最低，下 
载需求低。在热点资源中，除波峰4外，波峰的数值随时间 
增长逐渐变小，除波谷2外，波谷的数值随时间增长亦逐 
渐变小。 


表3 热点资源共享节点数量的波峰和波谷 


波峰/波谷 

节点坐标 ( z ， y ) 

岀现日期 

波峰 1 

(6.09, 753) 

2009-04-20 22:47:03 

波谷 1 

(14.38, 256) 

2009-04-21 07:04:02 

波峰2 

(29.71, 724) 

2009-04-21 22:24:09 

波谷2 

(37.70, 280) 

2009-04-22 06:23:15 

波峰3 

(52.74, 580) 

2009-04-22 21:25:57 

波谷3 

(63.09, 214) 

2009-04-23 07:46:45 

波峰4 

(75.03, 734) 

2009-04-23 19:43:01 

波谷4 

(87.70, 213) 

2009-04-24 08:23:11 

波峰5 

(147.29, 246) 

2009-04-26 19:58:32 

波谷5 

(157.13, 92) 

2009-04-27 05:49:25 

波峰6 

(171.55, 195) 

2009-04-27 20:14:08 

波谷6 

(179.13, 79) 

2009-04-28 03:49:26 

表4 

一般资源共享节点数量的波峰/波谷 

波峰/波谷 

节点坐标 ( z , 

出现日期 

波峰 1 

(4.87,564) 

2009-04-20 20:50:21 

波谷 1 

(16.52,104) 

2009-04-21 08:29:18 

波峰2 

(30.47,239) 

2009-04-21 22:26:41 

波谷2 

(40.59,71) 

2009-04-22 08:33:33 


综合以上对波峰和波谷的分析，可以看出共享节点数 
量变化曲线的波峰和波谷大都出现在每天相近时刻，其周 
期约为24 h ， 符合用户自然作息规律。节点数目总体变化 
呈现先增加后减少的生命周期特性，本文认为这种特性不 
仅与用户兴趣有关 M ，而且 BT 系统独特的发布机制也对 
其影响甚大。在共享初期，新种子文件第一时间发布在 
Web 站点上，除兴趣驱动的用户之外，随机访问者也大量 
参与共享，因此初期节点数目急剧 增长; 而随着其他新种 
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子的陆续发布，该种子文件也相应地逐步下降到 Web 站 
点的后续页面，仅能被兴趣驱动的用户发现，但仍能保持 
相当数目的共享 节点； 而最后随着新的替代资源的出现， 
该文件逐步开始消亡。 

4节点到达模型 

为了进一步分析节点到达过程，本文研究了种子文件 
的新到达节点数量。由于在测量开始时，目标网络通常已 
经存在了部分节点，因此本文将前次测量结果作为基准， 
若在前次测量中未出现，但在本次测量中发现的节点则 
被视为新到达节点。图5和图6给出了热点资源和一般 
资源的新到达节点数量变化曲线，可以看出，新到达节 
点数量的周期性更为明显，且随着时间增长新节点到达 
数量逐渐降低。 

这种典型的周期性特征并没有在文献中得到较好的 
描述，因此本文在参考文献 [5] 基础上增加周期波动以改进 
节点到达模型，如下 所示： 



40 60 80 

时间 ( h ) 

热点资源新节点到达数目及其拟合曲线 


+_原始数据 
一拟合曲线 


為 =10.69 
r = 24.24 
T = 0.29 
fi = 1.34 




20 - 


20 40 60 80 100 

时间 ( h ) 

图 6 —般资源新节点到达数目及其拟合曲线 


A ( i )=4 oe T ( sm ( T ( t + B ))+ l ) (5) 

其中, AW 表示《时刻新到达节点数量; 4„ 表示初始的 
振荡幅度，其大小主要与种子文件热度以及所处的文件传 
播阶段有关，具体而言，种子热度越高，心 越大; t 表示振 
幅的衰减因子，与种子文件热度有关，种子热度越高^取 
值越大，衰减越缓慢; 7 1 表示周期; B 表示相移。 

为了确定式 (5) 中的参数，本文定义目标 函数： 

n 

J = ^( Mod { k )-0 bs ( k)f (6) 

k = l 

其中 MM ㈨ 为第 A 个模型计 算值; 06 s ㈨ 为第 A 个探 
测值。本文使用 BFGS 拟牛顿法搜索参数空间，使目标函数 
/达到最小。 

图5和图6给出了节点到达模型的拟合曲线，通过观 
察发现，本文提出的周期性模型与实测数据非常吻合，其 
中热点资源的振荡幅度 A 高于一般资源，表明热点资源的 
网络规模较大;而热点资源的衰减因子 t 也高于一般资源， 
说明热点资源的衰减过程 较慢; 从两者 r 的取值来看， r 分 
别为 0.26 和0.29,说明其周期约为 2 ir/r « 24 h 0 

5结束语 

深人分析 BT 文件共享系统有利于揭示 BT 系统的节 
点行为，发现其性能瓶颈，便于更好的性能提升。相关研究 
结果亦为 P 2 P 性能优化、网络模拟、安全管理等方面提供 
基础性支持。本文提出的基于主被动相结合的 BT 测量系 
统，涵盖整个 BT 系统的多个数据层次 :网页 爬虫加快种子 
抓取速度并克服复杂网页带来的解析 难题; 节点探测在保 
证数据完整性前提下能够快速完成 测量； 内容测量则采用 
主动测量和被动收集(虚假注册)的方式获取不同网络环境 
下的节点内容分布。 

在此基础上，本文重点研究了不同流行度种子文件的 
节点演化规律和节点到达模型。一方面，不同流行度种子文 
件节点行为差异较大，热点资源表现更为活跃，持续时间更 
长; 另一方面，节点演化规律和节点到达均呈现强烈的周期 
性。本文为节点到达模型添加了周期波动，拟合结果表明新 
模型更加反映节点到达的真实行为。未来工作将进一步分 
析 BT 系统的其他性能指标，在微观上分析系统行为。 
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A Study on the Behaviors of Peers in BitTorrent System 

Ye Lin, Zhang Hongli, Su Majing, Li Fei 

(Computer Network and Information Security Research Center, Harbin Institute of Technology, Harbin 150001, China) 

Abstract Measuring and characterizing peer-to-peer file-sharing systems will benefit the optimization and management of P2P 
systems. The designs of current P2P network are getting more complicated, and several operational mechanisms bring about the 
incompleteness of data or long period in measurement, such as BitTorrent system. To solve the problem, three levels are 
abstracted from BitTorrent system in the view of measurement in this paper, including index, peer and content. Furthermore, this 
paper focuses on the difficult problems in every level, and meanwhile a measurement system for BitTorrent is designed. On these 
bases, a measurement was performed continuously, and the behaviors of peers that contain the evolution of peers and the model 
of peer arrival are mainly studied. The results demonstrate that the evolution of peers and the arrival of peers follow a strong 
periodical law. Therefore, an improved model of peer arrival is proposed, which can be fitted well with actual data and perfect 
the law of peer arrival. 

Key words peer-to-peer, BitTorrent, measurement, evolution, peer arrival ( 收稿日期 ： 2010—1CH13 ) 
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用语义网表达用户简档和 
文章 

基于事例学习，用 SMART 
发现与问題最匹配的 FAQ 
并从中找出最合适的答案 
检查用户对文章的分級并 
用其预測和推荐新文章 


网页修改 
告知 

学习访问者简档并识别访 
问者感兴趣的网页的变化 

链接推荐 

观察访问者行为并学习和 
预測最相关的链接 

元搜索引擎 

Web 文档搜索引擎的一致 
性接口 

推荐购买 

按人口统计数据创建用户 
简档并推荐购买，要求用户 
反馈 

比较构物 

学习从供应商处抽取产品 
信息并向访问者推荐 

访问及交互 
动作监測 

记录系统用户所访问的 
URL 及与计算机系统间的 
交互 


表1 一些 Web 信息抽取系统 
主要用途 方法描述 

文档分类 用向量模型表达文档和查询 


系统名称 

SMART 

INFOrmcr 

FAQ 

Finder 

News 

Wccdcr 

Do I Care 

Web 

Watcher 

Meta 

Crawler 

Lifestyie 

Finder 

Sliopbot 

Boss 

Evciywarc 


1 PACTUT 系统的关键技术及实现 

PACTUT 系统的目的是基于对用户访问的 
Web 内容进行实时动态分类来追踪用户的行为 。 
相关的技术可用于以下目的 ： 监測员工是否在公共 


会效益更增加了研究价值。表1列出目前的一些 
Web 信息抽取系统及其用途，它们都是收集和抽取 
入站来访者的信息 [2] 。后继各节将讨论作者设计 
的基于包捕获和 Web 文档动态分类技术的出站用 
户追踪系统 PACTUT » 


0弓 T 


Internet 上存在大量的信息资源，它们高度分 
布并以各种形式出现，有静态的也有动态的，有结构 
化的也有非结构化的。虽然在单个站点来看，信息 
的组织可能是有序的 ，而 从整个 Internet 来看，信息 
是混乱无序的。在 Web 空间中，存在各种资源类 
型、资源描述协议和网络发布协议，但超文本文档是 
其主要部分。 Web 上目前主流的信息组织方式有 
些像传统的图书馆，但这种基 于人工 预先对站内文 
档的手工分类和站间文档的静态链接的方法，不能 
适应信息的动态检索和抽取要求。不断更新的网页 
设计格式、内容和链接也给信息抽取造成了障碍。 
探索对这些信息资源的高效的搜索滤泼现和利 
用手段，不仅需要考虑信息空间的复杂性和异质性， 
也需要考虑用户的信息需求和对资源内容的理解。 
Web 本身是一个信息驱动的空间 ，而 又是定位在用 
户之上的，因此，抽取 Web 中固有的信息和抽取信 
息被利用过程中生成的信息成为 Web 信息抽取的 
两 个重要方面。前者主要包括信息检索，如自动搜 
索引擎和 Web 页分类系统，后者主要包括用户简档 
构造，如用户行为追踪系统。用户简档表达了用户 
一般情况下的信息需求 , Web 站点不仅可用它来有 
效地定位用户群和定制站点内容 
和服务⑴，也可使用户免遭信息 
. 相络管理上，基于 Web 
的动态文档分类也可用于建立有 
效的 Internet 内容分級审查和过 
滤机制，实施 Internet 的访问内 
容 管制。 其隐含的可观经济和社 
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基于受访 Web 页动态分类技术的用户兴趣追踪 

汪 立东① 方滨兴 云晓春 
(哈尔滨工业大学计算机系哈尔滨 150001) 

摘要提出一种基于消极包捕获技术和受访 Web 页动态分类技术的 Web 用户兴趣追 
踪方法，讨论了相关的关鍵技术，并给出了用已实现的 PACTUT 系统所做的一些结果和 
性能 分析。 

关鍵词网络安全，基于 Web 的信息抽取，用户追踪，包捕获 
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汪立东等：基于受访 Web 页动态分类技术的用户兴趣追踪 


技术特点输入模板用户在线活 
规范设计动轨迹（超链 
转移、停留时 
间等信息）提 
取；静态文档 
索引 


信息层次用户用户用户/主机級 主机級 

1.3 基于关注度和类相似度的文档分类 

学习用户简档是设计和开发 Internet 智能系统 
的难点之一。曾沸扬一时的“推”技术即由于缺乏具 
体用户简档，给用户带来了大量的信息垃圾而无疾 
而终。 Internet 空间中的信息表达格式具有多样性 
并且大多是动态更新的，分类条件也往往是动态改 
变的。复杂的基于学习的分类算法，往往由于需要 
精心挑选的样文，而并不适用于 Web 文档分类，在 
此领域中的应用受到了限制。同时，对中文网页分 
类时还涉及分词或词性标注等复杂问題。本文提出 
了一种基于计算分类关鍵字的总关注度和文档对关 
鍵字的类相似度的分类方法，实验证明，它们可以较 
准确地对受访 Web 网页进行动态地分类。 

设系统当前关鍵字集为 （ 幻，…，； J 。 K t 
=< Kj d , K T Con , K J Cct , 为关鍵字 r 的描述，其元 
素分别表示7的 id 号、关鍵字内容片属类别及受 
关注程度。对文档△，设命中的关鍵字 集为： 
c sl ) , ( Ka 2 , c s2 ) , ( K^ n , C s J}, ( 

C Si ) 表示关鍵字在文档 △ 中出现了 C s ，次，采 
用下式计算文档 △ 的总关注度 Score ( A ) : 


1.2 用户信息收集 

从信息收集者与用户之间的关系来看，可以分 
为面向入站用户的信息收集和面向出站用户的信息 
收集，分别称其为入方式和出方式。前种方式中收 
集者所在的网络或网站是用户的访问 对象； 后种方 
式中，收集者与用户属同一局域网，收集者一般是本 
局域网的管理单元。 

目前用于收集构造用户简档的原始数据的通用 
途径 包括： 用户手工输入 4 莫板加用户反馈法、鼠标 
点 击流。 由于缺乏外部站点的知识，它们均无法用 
于出方式信息收集。为此，作者提出基于消极包捕 
获的出站信息收集方法，以对用户透明的方式完成 
信息的收集。各种方法间的比较如表2所示。 

表2用户信息收集方法及比较 

手工模板鼠标鍵点击流 包捕获 

信息流向 入入入 入/出 

受访信息特态静态半动态 动态 


论坛上泄露公司的秘密信息；监測攻击者为获得内 
部访问而实施的信息 收集； 监測员工发表对公司公 
共形象有显著资面影响的 信息； 监测与犯罪活动相 
关的 信息； 监測员工是否花费大量时间用公司帐号 
进行与公司业务无关的 Web 访问及参与公共论括 
的 通信； 监測对黄色站点的访 问等。 

考虑到 Internet 中大规模的动态信息和分类系 
统对分类条件动态变化的需求，用户追踪系统的设 
计必须满足动态性、可扩展性、灵活性和对用户透 
明，应避免引入过分复杂的信息抽取和分类算法 0 
PACTUT 通过在网络出口进行消极捕包和会话内 
容的实时恢复，以透明的方式完成原始数据的收集 ■> 
扩展性要求则通过数据收集代理 （ CA ) 与分析中心 
( AC ) 分离而实现，通过实时修改感兴趣的关键字分 
类提供分类条件的灵活性。 

1.1 PACTUT 的体系结构 

PA C TU T 在体系结构上主要由三大模块组成： 
数据收集代理 ( CA ) 、分析中心 ( AC ) 和用户简档生 
成器 （ AG ) » CA 在网络出口处消极捕包，完成 
HTTP 协议的解释和会话内容的部分恢复（称其为 
会话分片），并将会话分片传送到 AC 。 AC 接收会 
话分片并完成会话恢复、文档分类和信息入库 》AG 
通过数据库系统动态生成用户的访问简档。 



图丨基于 TCP 的专用传输协议加多接收线程 



图2基于 UDP 的专用传输协议加单接收线程 

CA 向 AC 传送的的信息及 AC 与 AG 之间传送 
的信息均采用专用协议。例如，为了同时处理不同 
Internet 连接点的多个 CA 送来的会话分片， CA 与 
FA 之间可以基于 TCP 或 UDP 设计此专用协议，如 
图1和图2所示。实验表明，基于 UDP 加单接收线 
程的专用协议比基于 TCP 加多接收线程的专用协 
议具有更好的鲁棒性和可扩展性。 


捕解话态引 
包议会 A 索 * 
态^与原档分 
动获释还文^ 
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An ■ ■ 

Score (^) = ^!^^ to //2 ; 

i = Al j =0 

经实验调整，在上式中采用了 2的_/次幂来逐渐降 
低在文档中多次出现的同一关键字所贡献的杈值， 
以免它显著增加 Score ( 值。设 
fl^a, =K^ at ) 

1当关鍵字 i 与关鍵字 T 属同一类时 
= 0其他 

则文档 A 的•^^类相似度如下 
计算： 


Similarity ( A, Kcat) = >/ f^cat = Ken) 

I = ^1 

对文档的分类考虑 3 个因素： Fthread St bread 


和 Cthread 。 Fthread 是特别关注阈值，用来捕获含 
有单个指定关鍵字（只需其被设定的杈值大于 
Fthread 即可）的文档； Sthread 是文档的总关注度的 
阈值； Cthread 是类相似度阈值，即若文档被判定属 
于某类，则文档中包含的此类关鍵字的个数应大于 
Cthread 。文档△属于类当且仅当. • > 

Fthread 载^: Score ( 匕 } > Sthread 且~ Similarity ( A , 
Kcat ) > Cthread 。 


1.4 文档索引 

基于 Web 的动态文档分类系统中涉及到的另 
一个关鍵问题，是如何判定两个被访问的页面是相 
同的，即要解决文档的索引问题，它直接关系到信息 
检索的速度和 效果。 

虽然 URL 可以在 Internet 这一无尽信息空间 
中准确定位信息资源，但它是长度不定的字符串，不 
适合作为文档分类系统的检索鍵值。而它与 Web 
页之间的对应关系，则表明文挡索引可以基于 URL 
的某种变换来建立。作者用一个32位的无符号整 
数作为文挡索引值，称之为信息 id 。从 URL 生成信 
息 id 的算法如图2所示。 

图2中的算法综合考虑了 URL 、网页源代码长 
度和受访时间，并基于如下 假设： 

(1) 采用双 hash 函数可让信息 id 分布更均匀； 

(2) 两个页面源代码的长度差小于 2 8 byte 时认 
为其长度相等（考虑到协议恢复时的误差和 HTTP 
标记值的影响）；当长度差大于 2 2D byte 时也认为其 
长度相等； 

(3) —个网页在小于约 24 d ( = 2 31 s ) 及大于1年 
(=2 24 s 二 ：388 d ) 时不会在同一 URL 上被替换成长 
度变化不大的另一网页。 

对此算法用10万个隨机生成的模扭 URL -L 


和 rrik <L <100 k ; T 位于 1997 年 1 月至2000年 
12月之间）測试，沖突率为0。 


URL L T 



32位倍息 i'rf 


h \ 6 (), hh 6 0 hash 函数； 9 〜 20 位/如取21 〜： M 位 
i 32位页面源码长度 7 V 32 位秒计时间 

图2信息 id 的生成算法 

1.5 用户简档生成 

分类后的文档信息（如信息 id 、 URL 、类别）及 
其访问者信息（如 IP 地址、访问时间）被存储到数据 
库中。用户的动态简挡生成可以通过对数据库进行 
简单的查询和统计操作来完成，如计算基于时段的 
用户访问兴趣 分布。 用存储的信息，还可以了解组 
织内部用户最常访问的站点类别和访问量最多的站 
点，构造组织級的访问兴趣 简档。 

2 PACTU T 结果与性能分析 

2.1 结果评估 

对文档过滤和分类系统的结果，一般可以使用 
查全率和准确率来评估，而对于 internet 这样的无 
尽信息搜索来说，作者更看重结果的准确車。 

PACTUT 系统采用两神方法来改进基于关鍵 
字加杈的判定方法，其一是区分关鍵字的积极出现 
和消极出现，其二是引入类相似性度量。 

关鍵字的消极出现与积极出现 
首先将文章中出现的关鍵字分为消极出现和积 
极出现两种情况。消极出现的关鍵字对文章的最终 
分类没有太大贡献，相反可能会产生干扰，积极出现 
的关鍵字对文章的分类有实际意义。 

消极关鍵字出现的例子如关鍵字在超链描述中 
的出现，例如门户网站首页、新闻网站新闻标题目录 
以及搜索引擎返回的满足搜索要求的记录列表中出 
现的关 鍵字。 这种情况下用户并未去访问这个链接 
对应的内容，不应对文档的分类有贡献 。作 者对这 
种消极出现的处理方 法是： 每当匹配到关键字后，往 
回扫描一定范围内的 HTML 源代码，看其中是否存 
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在链接说明柄记 “href = ”。找到此标记，則认为此 
关鍵字出现在链接说明中，属消极出现。通过在实 
环境下的多次測试调整和结果分析，发现回扫范围 
定为 lOObyte 左右比较合适，太大时可能将一些本 
来是积极的出现判定为消极的，而太小则可能由于 
URL 太长而未能回扫到 “href = ” 标记。 

另一种关鍵字的消极出现可反映在某些信息收 
集模板网页上。它们往往在某个选项上给出一个选 
择列表，根据恢复的网页内容并不好判定用户是否 
选取了此列表中的一些选项，因此这种情況也作为 
消极出现处理。 

通过实环境下的运行測试和结果分析表明，区 
分关鍵字的消极出现和积极出现，可以将分类结果 
的准确性提高约20%。 

类相似度对分类准确性的影响 

通过在实环境下运行 PACTUT 系统并分析其 
对文档分类的结果的准确性，作者发现，如果仅依赖 
关注度，而不引入对关键字的类相似度时（即类相似 
度阈值 Qhread 为 1) ，除了特别敏感的关鍵字（如 
sex ，色情等）外，系统对文档的最终分类结果的准确 
率平均只有10%左右，并且一味地调高关注度阈值 
Sthread 或调整各关鍵字的杈值，均无法进一步提高 
平均准确率。而当 Cthread 值设置为2时，即要求 
每篇文档中至少有两个以上积极出现的关鍵字是属 
于同一类的，分类判断结果的平均准确率约为 
60 %。若 Qhread 为3，则分类的平均准确率达到了 
90 %以上。但当 Qhread 大于等于4时，平均准确 
率的提高并不明显，反而会损失查全率。因此在实 
际应用中 Cthiead 的最佳值为3,同时需要为每种分 
类提供5个以上的特征关鍵字。对特别敏感的关鍵 
字（如色情)，可设定其 Qhread 值为1或2。 

2.2 性能分析 

对本系统的性能的影响主要体现在以下几个方 
面 ：捕 包涟接恢复和关鍵字过滤。 

捕包与协议还原 

PACTUT 系统的 CA 子系统运行在安装 Linux 


汪立东等：基于受访 Web 页动态分类技术的用户兴趣追踪 

操作系统的双网卡工控机 （ P 瓜 CPU ，256 M 内存） 
上。 CA 子系统基于 Libnids * l _ 14开发 ， Libnids 仿 
真 Linux 2. 0. x 的 IP 栈，提供 IP 分片重组 、 TCP 流 
组装等，其本身又是基于 libpcap 库开发，可以启用 
libpcap 的核心过滤机制 [3] 。作者的 Libnids 的 TCP 
回调函数就是实现 HTTP 协议的解释和实体的部 
分还原 功能。 为加快 HTTP 协议的还原速度及減 
轻 CA 机的资荷， CA 的所有工作都基于内存中的一 
个 hash 表进行，每还原到一定长度，即通过基于 
UDP 定制的协议转发给 AC 作进一步处理（参见图 
1) » 经实验在百兆网上的捕包速度能达到 60 M 以 
上，可以满足大多数企业級的运行环境。 

关鍵字过滤 

采用基于自动机的关键字匹配算法，对长度为 
n 的文档，匹配所有关鍵字时的时间复杂度为 
厂在大于 20 Mb / s 数据量的測试环境中，此进 
程所占用的 CPU (P m + RedHat Linuxj 负载不足 

8 %。 

3 结论 

基于 Web 的信息抽取技术隐含着巨大的经济 
效益和社会效益。本文分析了目前使用的 Web 信 
息抽取系统及其特点，提出了基于包捕获和动态文 
档分类技术设计的用于出/入站用户访问兴趣追踪 
的系统 PACTUT , 比较详细地讨论了 PACTUT 系 
统的技术特点，给出了 PACTUT 在百兆測试环境 
和实环境中运行的一些结果和性能分析，证明它能 
较好地满足企业級需求。 
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User Interest Tracing Eksed on Dynamic Categorizing 
of Accessed Web Pages 

Wang Lidong , Fang Binxing , Yun Xiaochun 
(Department of Coup liter Science , Harbin Institute of Technology , Harbin 150001) 

Abstract 

An approach is presented to trace user interest of Web access based on passive packet capturing and dynami ¬ 
cally categorizing the accessed Web pages . The associated critical technologies are discussed and some results and 
performance analysis with authors ’ inplemented PACTUT system are given . 

Key words : Network security , Web~based information retrieval , User tracing ， Packet capturing 
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基于 SOCKS 协议的 IPv6/ IPv4 转换器 

安雁①方滨兴 

(哈尔滨工业大学计算机科学与工程系哈尔滨 150001) 

摘要介绍了 IPv 6 协议出现和 IPv 6 与 IPv 4 将长期共存的必然性。讨论了从 IPv 4 到 
IPv 6 的各种过渡机制，包括 IPv 4 网络中 IPv 6 域间互联的机制及 IPv 6 节点与 IPv 4 节点 
间通信的机制。实现了一个 IPv 6/ IPv 4 转换器，该转换器利用了 SOCKS 协议和 6 to 4 隧 
道 方式。 最后分析了这个转换器的适用性和特点。 

关鍵词 IPv 6 ,6 to 4 , SOCKS ,AL G , 转换器 


0 引言 

目前互联网正以令人难以预料的達度膨胀，据 
统计，平均每年互联网的规模扩大一倍。互联网 
现在使用的网络协议 IPv 4 的地址分配已出现紧张， 
尽管使用无类域间路由 （ C ID R ) 等技术在一定程度 
上延緩了 IP 地址紧张的局面，但是引入并采用新 
的地址方案势在必行。同时多媒体数据流的加入， 
对数据流真实性的鉴别，以及安全性等方面的需求 
都迫切要求新一代 IP 协议的出现。20世纪90年 
代初，人们就开始讨论新的互联网络协议。 IETF 
的 IPng 工作组在1994年9月提出了 一个正式萆案 
“The Recommendation for the IP Next Generation 
Protocol ”，1995 年底确定了 IPng 的协议规范，并 
称为 “IP 版本6” ( IPv 6) tl] ,以区别于当前使用的 
IPv 4 • 

IP 是互联网体系结构的核心，它必须具备相对 
的稳定性。 IPv 6 作为互联网协议的新版本，其根本 
目的是继承和取代 IPv 4。互联网协议和标准化有 
一个简单的原则 ： 只要现有的协议标准还可用，就使 
用现有的协议标准；只有当现有的标准不够时才制 
定新的协议，只有这些新的标准可用，而它们又能提 
供等价的功能，才使用这些新的 标准。 IPv 6 需要在 
研究所和学术机构中进行足够的 试验， 才能像 IPv4 
一样投入使用。因此，从 IPv 4 到 IPv 6 要有一个过 
渡时期，过渡时期的基本问题主要涉及以下3个方 
面：长期共存 、 IPv 4 和 IPv 6 互连互通以及 IPv 6 的自 
动配置问题。 

①女，1977年生，碩士，研究方向网络安全，联系人。 

(收稿日期 2001-10M1) 


1 IPv6/IPv4 转换机制 [ 3 ] 

IPv 4 到 IPv 6 的基本过渡机制有2种：双协议 
栈和隧道 方式。 

1.1 双协议栈 

一个协议栈同时提供对 IPv 4 和 IPv 6 的支持， 
称为双协议栈，其结构见图1。双协议栈节点可以 
与 IPv 4 和 IPv 6 节点直接进行互操作。由于双协议 
栈节点既支持 IPv 4 协议，也支持 IPv 6 协议，因此必 
须同时拥有 IPv 4 和 IPv 6 地址。通常利用 IPv 4 的 
某些机制（如 DHCP ) 获得 IPv 4 地址，利用 IPv 6 的 
某些机制（如自动地址配置）获得 IPv 6 地址。双协 
议栈节点必须提供解析域名的函数，这些函数既能 
处理 IPv 4 的 A 记录，也能处理 IPv 6 的 AAAA 或 
A 6 记录。如果 DNS 中同时出现了 A 和 AAAA 记 
录，有3种处理方法：只返回 IPv 4 地址，只返回 IPv 6 
地址和既返回 IPv 4 地址也返回 IPv 6 地址。返回何 
种地址类型和以何种顺序返回将影响其后通信的类 
型。双栈这个词本身有误导性，大部分 IPv 6 的实现 
不提供分别针对 IPv 4 和 IPv 6 的 TCP / IP 栈，而是 
一种混杂的栈，两个协议栈共享大部分的代码。 

应用程序 

TCP/ UDP 

IPv4 IPv6 

网络层 

图1 双桟节点 

1.2 隧道方式 

IPv 6 分组封装在 IPv 4 分组中，借助 IPv 4 网络 
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传递 IPv 6 分组，称为隧道方式，见图2。被 IPv 4 网 
络分隔开的 IPv 6 节点或网络之间通过配置隧道建 
立虚拟的连接。 IPv 6 域之间传递的 IPv 6 分组被封 
装在 IPv 4 分组中。隧道的端点包含两个 IPv 4 地址 
和两个 IPv 6 地址。隨道分为手工配置和自动配置 
两种类型。61)011^ 4 ]网络主要由手工配置的隧道组 
成，自动配置的隧道的端点具有与 IPv 4 地址兼容的 
IPv 6 地址。 

IPv6 域 _ 

- ~ IPv4 W 

- 1 ― IPv6 域 


图2隧道方式 

1.3 互联方法 

从 IPv 4 向 IPv 6 过渡的过程中，面临着两方面 
的问题。一方面，各个 IPv 6 域被 IPv 4 网络分隔开， 
这些孤立的 IPv 6 域之间需要通信。另一方面， IPv 6 
域与 IPv 4 网络之间也需要建立通信。 

IPv 6 域之间通信有以下几种解决办法 ： 手工配 
置的隧道、自动配置的隧道揭道代理 Uo 4 ^6 over 4 。 

IPv 4 节点和 IPv 6 节点间通信有以下几种解决 
办法 ：双 栈模式、有限的双栈模式 、 SOCKS 64 SIIT 、 
NATPT BIS 、传输层中继翻译器 DSTM [ 5 ] 。 

本文介绍的转换器实现主要应用了其中的 6 to 4 
和 SOCKS 64 方法。 

(1) 6 to 4 

6 to 4 [2] 适用于被 IPv 4 网络分隔开的孤立的 
IPv 6 域之间的通信。 IPv 6 域的出口路由器负责创 
建到其他 IPv 6 域的隧道。隧道的 IPv 4 端点通过 
IPv 6 域的前缀标识。这一前缀由唯一的 6 to 4 顶級 
定位器聚合 （ TLA ) 加上次級定位器聚合 （ NLA ) 组 
合构成，其中 NLA 标识通过出口路由器的 IPv 4 地 
址标识了整个站点。 

6 to 4 的另一有趣现象是它能自动地从 IPv 4 地 
址产生一段48位长的 IPv 6 地址。依靠这一机制， 
站点可以布置 IPv 6 而不用先申请 IPv 6 地址空间。 
当没有 IPv 6 的 ISP 的时候，这是非常宝贵的，因为 
这将管理隧道的费用降到0。 

(2) SOCKS 64 

SOCKS 网关系统接受来自 IPv 4 主机的 
SOCKS 连接，并把这一连接中继给 IPv 4 或 IPv 6 主 
机。对于 SOCKS 化过的站点（这些站点已经使用 


了懂得 SOCKS 协议的客户端和 SOCKS 服务器）， 
SOCKS 网关提供了 一种简便的将 IPv 4 主机与 IPv 6 
主机相连的机制 s SOCKS 64 不需要修改 DNS ，也 
不需要进行地址 映射。 SOCKS 64 的原理还可用于 
IPv 6 主机到 IPv 4 主机的连接，通过 IPv 6 网络连接 
IPv 4 主机和通过 IPv 4 网络连接 IPv 6 主机。后面两 
种情况与隧道技术相似，但不会有分段或跳数受限 
制的问题。 

2 基于 SOCKS 的 IPv 6 / IPv 4 网关机 
制[ 6 ] 

我们实现的转换器是一个应用层的网关 
( ALQ ，它依赖于 SOCKS 协议，是基于 SOCKS 协 
议的 IPv 6/ IPv 4 转换器。通过这个转换器可以实现 
IPv 6 节点和 IPv 4 节点之间的通信 <■ 

2.1 简述 

我们的转换器，是通过应用 SOCKS 协议和对 
IPv 4 及 IPv 6 通信进行中继实现的。由于没有引入 
新的协议，这一转换器所提供的通信环境与 SOCKS 
协议所提供的相同。这一转换器的工作原理是在应 
用层对 IPv 4 连接和 IPv 6 连接进行中继，它具有的 
特点来源于应用层中继机制的特点和 SOCKS 机制 
的特点。 

2.2 基于 SOCKS 的网关机制 

图3是我们实现的网关的基本结构。 

图3中，客户端 C 发起到目的 D 的连接。此转 
换器需要增加两个功能模块。一个是客户端的 * 
SOCKS 库 *( 客户端 C )， 处于应用层和套接字之 
间。*80(：1«库*替换了应用程序的套接字函数 
和 DNS 名字解析函数（如 get ho st byname ()， getad _ 
drinfoO) 。 * SOCKS 库 * 中有一个专门为 “ DNS 名 
字解析代理”设计的映射表。另一模块是安装在 
IPv 6/ IPv 4 双栈节点上的 * 网关 *( 网关 G )， 它实 
现客户端 C ( IPvX ) 和目的 D 之间任意协议组合的 
中继。当 * SOCKS 库 * 发出请求时，负责中继连接 
的 * 网关 * 父线程派生相应的子线程来处理中继请 
求。有4种中继方式，即： 


类型 

o - 

G - - D 


A 

IPv 4 

IPv 4 

同构通信(通常的 SOCKS ) 

B 

IPv 4 

IPv 6 

* 异构通信 * 

C 

IPv 6 

IPv 4 

* 异构通信 * 

D 

IPv 6 

IPv 6 

同构通信 


— 31 





高技术通訊 2002.11 


类型 A 为通常的 SOCKS 机制。类型 B 和 C 是 
我们实现的 IPv 6/ IPv 4 转换器的主要工作。类型 D 
是类型 A 的扩展，这里暂不讨论。 

由于 * SOCKS 库 * 通过 SOCKS 协议 
( SOCKSV 5) 与 * 网关 * 通信，因此这种客户端 C 和 
网关 G 之间的特定连接称为 “ SOCKS 化”的连接， 


它不仅能够传输数据，而且能够传输控制信息（如目 
的 D 的位置）。网关 G 与目的 D 之间为非 SOCKS 
化的正常连接。目的 D 上运行的服务器应用程序 
不必知道客户端 C 的存在，它所知道的通信的另一 
端是网关 G 。 


客户端 C 


网关 G 


目的 D 


相 

同 

的 _ 

A 

P 

I 



应用程序 


(服务器端） 



[t 

•SOCKS m * 


•网关* 


应用程序 

~ W 

DNS 

DNS 

DNS 1 

[ IPvX ] 

[IPvX ] | ( IPvY ) 

( IPvY ) 

网 络 

网络 

网络 









Socks 化的连接 
(控制命令 H 数据 


正常的连接 
数据 


图3基本的基于 SOCKS 的网关机制 


这一转换器具有两个 特点： 

(1) 分组大小不需要调整 

IPv 6 分组头和 IPv 4 分组头有较大差别，因此 
在一般的通信过程中分组的大小需要调整。否则， 
分组的大小可能会超过网络的 MTU 。由于我们实 
现的转换器是在应用层对两个独立的连接进行中 
继，因此，并没有增大网络的 MTU ，而且，中继的也 
只是应用层简单的数据流，分组的大小自动进行了 
调节。 

(2) 中继可以认证 

由于 SOCKS 最初是为防火墙系统设计，有很 
多认证的方法，因此，中继的连接可以用 SOCKS 的 
认從方法来认從。 

2.3 DNS 名字解析过程 

在通信程序中，必须获得目的 IP 地址才能开始 
通信。然而，现存的 IPv 4 应用程序无法处理 IPv 6 
地址，对于这种异构通信，理论上无法获得正确的地 
址。由于地址长度的差异，4字节的地址空间无法 
存储 IPv 6 的地址。 

为了解决这个问題，我们实现的转换器中使用 
了 “ DNS 名字解析代理”这一方法。这一方法将源 
节点（客户端 C ) DNS 名字解析的动作代理给中继 
服务器（网关 Q 。由于中继服务器是 IPv 6/ IPv 4 的 
双栈节点，对于任何地址类型的 DNS 名字解析查询 
都不会出现问题，因此，不必修改现存的 DNS ^ 

TINS 名字解析代理”不仅支持目的为域名 


( FQDN ) 的情况，而且支持数字 IP 的形式。由于 
IPv 6 地址表示中包含冒号（“：”），在 IPv 4 的应用程 
序会把 IPv 6 地址看成 FQDN 。对数字 IP 的支持几 
乎与对 FQDN 的支持完全相同。 

SOCKS 协议中规定了在 ATYP 域中，可以是 
IPv 4 地址 . IPv 6 地址或域名 ( FQDN ) . “ DNS 名字 
解析代理”方法中 ， ATYP 域中用的是 FQDN »包含 
在 ATYP 域的域名 （ FQDN ) ，从客户端 C 传输到网 
关 G 以指明目的 D » 

为了解决地址长度差异的问題，引进了“假 IP ” 
作为 SOCKS 化的应用程序的虛拟目的 IP 地址。 
在 * SOCKS 库 *( 客户端 C 中）中设有映射表，管理 
“假 IP ” 和 “ FQDN ” 之间的映射，通过“假 IP ” 地址查 
找相应的 “ FQDN ” 。映射表在本地而且独立于其他 
的应用程序和其他的*80(：1«库 * 。 

“ DNS 名字解析代理”方法保证了应用程序的 
透明性。除了对应用程序进行 SOCKS 化，不需要 
做其他特别的工作。由于 DNS 名字解析函数被 * 
SOCKS 库 * 替换， “ DNS 名字解析代理”的执行是 
在 SOCKS 库内部实现的。 

只有当 SOCKS 命令中 ATYP 域是 FQDN 时， 
“ DNS 名字解析代理”才会用到。因此，对于异构通 
信，使用 ° DNS 名字解析代理”是强制的。在 ATYP 
域应用 FQDN 方法依赖于 SOCKS 协议的配置和实 
现。我们着重讨论 ATYP 域中是 FQDN 时的 情况。 

“ DNS 名字解析代理”的详细过程及与地址映 
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射管理相关的问題描述 如下： 

(1) 调用 DNS 名字解析函数（如 get ho st byname 
()) ，源节点（客户 C ) 上的应用程序试图获得目的节 
点（目的 D ) 的 IP 地址。这时候，目的 D 的逻辑主机 
名 （“ FQDN ”)作为参数传递给应用程序的 * SOCKS 
库 * 。 

(2) 由于 * SOCKS 库 * 已经替换了名字解析 
函数，真正的 DNS 名字解析函数并没有被调用。作 
为参数的 “ FQDN ” 只是记录到 * SOCKS 库 * 的一 
个映射表里，并有一个“假 IP ” 地址从预留的 IP 地 
址空间中被选出，返回给应用 程序。 选择 IP 的地址 
空间绝不会在真正的通信中用到（如 0. 0. 0. X 这样 
的地址） 。“假 IP ” 地址的类型必须与应用程序调用 
的函数相匹配。也就是说，“假 IP ” 必须与客户 C 的 
地址类型相同，即使与目的 D 的地址类型不同。选 
定的“假 IP ” 地址与 “ FQDN ” 作为一条记录写到映射 
表里之后，“假 IP ” 返回给应用程序。 

(3) 应用程序收到“假 IP ” 地址后，开始准备“套 
接字”。“假 IP ” 地址被用作“套接字”的一个元素。 
应用程序调用套接字函数（如 connect ()) ，发起连 
接。“套接字”作为函数的参数使用。 

(4) 由于 * SOCKS 库 * 已经替换了这些套接 
字函数，真正的套接字函数并没有被调用。根据套 
接字参数的 IP 地址进行判断，如果该地址属于假地 
址空间，从映射表中取出与之相匹配的 “FQDN ”。 

(5) 使用与套接字函数相匹配的 SOCKS 命令 
(如对于 connect () 使用 CONNECT 命令 ）， FQDN 
传到中继服务器（网关 G ) 上的 * 网关 * 。 

(6) 最后，真正的 DNS 名字解析函数（如 getad - 

客户端 C 网关 G 1 


drinfoO ) 在 * 网关 * 被调用，通过 SOCKS 协议收到 
的 “ FQDN ” 用作调用函数时的参数。 

(7) * 网关 * KDNS 服务器得到“真 IP ” 地址， 
并创建“套接字”。“真 IP ” 地址用作“套接字”的一 
个元素。 

⑻ * 网关 * 调用套接字函数 （如 connect ()) 
与目的 D 通信。“套接字”作为函数的参数使用。 

“ DNS 名字解析代理”的问题是 ， DNS 名字解析 
过程的失败在源节点（客户端 C ) 显示不正确，显示 
的是连接建立失敗。 

“ DNS 名字解析代理”并不要求为了地址映射 
而预留很多地址，因此复杂的地址分配及垃圾收集 
机制是不需要的。通过使用假 IP 地址和用于 DNS 
名字解析代理的映射表，地址管理操作是由 * 
SOCKS 库*实现的。因为映射表每个应用程序都 
有一份，映射表独立于其他的应用程序。因此，管理 
表较容易，而且不需要预留较多地址。 

2.4 连接起来的多中继机制 

我们实现的 IPv 6/ IPv 4 转换器所具有的灵活性 
足以支持连接起来的多次中继。依靠多次中继， 
IPv 4 和 IPv 6 相互混和的各种拓扑结构都可以实 
现。 

图4中，源节点（客户端 C ) 发起与目的节点（目 
的 D ) 的通信。实际上，这一连接被3个连接所代 
替，这3个连接由两个中继服务器（网关 G 1 和 G 2) 
连接。在第一个中继服务器（网关 G 1) 上，通过使 * 
网关1 * 具有 SOCKS 库的功能，多次中继的拓扑结 
构得以 实现。 在源节点和最终的目的节点之间中继 
操作的次数是没有限制的。为了叙述简单，这个图 

网关 G 2 目的 D 



SOCKS 化的连接 SOCKS 化的连接 正常的连接 

(控制命令)+数据 （控制命令)+数据 数据 


图4多級中继机制 
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里只画了两次中继。由于连接起来的多次中继比一 
次中继要复杂，因此只是在某些特定的情况下（如可 
以使用的协议或拓扑受到了路由器的限制），才使用 
连接起来的多次中继。 

2.5 转换器的适用性 

我们实现的 IPv 6/ IPv 4 转换器需要对应用程序 
进行 SOCKS 化（安装 SOCKS 库），才能实现通信。 
修改应用程序（修改源代码和重新编译等）是不必要 
的，因为通常 SOCKS 化是通过改变动态连接库的 
连接顺序（比如说，在连接普通的套接字和 DNS 名 
字解析函数库之前连接 SOCKS 库）实现的。 

这一机制不需要修改 DNS 系统，因为在客户端 
C 的 DNS 名字解析过程是通过代理给双栈节点网 
关 G 实现的。 

不考虑 SOCKS 化，基于 SOCKS 的网关机制有 
下列三类的 限制： 

(1) 基本限制 

这一限制是由于 IPv 4 和 IPv 6 的地址长度有差 
异造成的。 

把 IP 地址作为返回值的函数（如 getpeername 
0和 getsocksname ()) 不能提供正确的 IP 地址作为 
返回值。但是 ，可 以返回合适的端口值，因为 IPv 4 
和 IPv 6 中端口值的取值范围是相同的，而且 
SOCKS 协议能够传递端口值。 

(2) SOCKS 机制的限制 

当前不可能对所有的应用程序都进行 SOCKS 
化，因为有些应用程序采用非常规的方法建立连接。 
我们实现的 IPv 6/ IPv 4 转换器不适用于这样的应用 
程序。 

(3) 使用假地址造成的限制 

对于应用程序，假地址作为临 时值。 “ DNS 名 
字解析代理”中要用到映射表，这些假地址作为映射 
表中的关鍵字。应用程序关闭后，映射表也消失了， 
假地址信息也会被清除掉。 

假地址即使是被永久地记录下来（如作为 
bookmark 被记录下来了），也不会造成严重的 后果。 
这些记录下来的假地址将变得失效，因为假地址信 
息是从一个特别的 IP 地址空间中取的，这个地址空 
间（即， 0. 0. 0. X )绝不会在真正的通信中用到，这样 
的地址信息对于一般的通信是没有用的。而且，这 
样的情况很少出现，因为大多的应用程序记录下来 
的是 FQDN ，而不是 IP 地址。 
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我们实现的 IPv 6/ IPv 4 转换器的特点来自于 
SOCKS 机制。因此需要讨论关于 SOCKS 机制的一 
些问題。 SOCKSv 5 协议由三类命令 （ CONNECT ， 
BIND 和 UDP ASSOCIATE ) 组成。所有三个命令 
都可用于 IPv 6/ IPv 4 网关机制。 

本文描述的用法大多是针对 CONNECT 命令 
的，因为 CONNECT 命令是 SOCKS 机制中最常用 
到的命令。由于 CONNECT 命令没有明显的弱点， 
因此可以不加考虑地使用它。 

其他命令 （ BIND 和 UDP ASSOCIATE ) 有弱 
点。在使用时，要考虑到这些弱点。 

BIND 命令是针对 FTP 类应用程序的反向连接 
需求而设计的。因此，非 FTP 类应用程序使用 
BIND 命令可能会出现 问题。 

UDP ASSOCIATE 是针对 UDP 类应用程序 
(如 archie ) 而设计的。这个命令还不是足够的通 
用，不能支持同时使用 TCP 和 UDP 的应用程序。 
2.6 转换器的安全性 

由于我们实现的 IPv 6/ IPv 4 转换器依赖 
SOCKSv 5 协议，所以其安全特征与 SOCKSv 5 相同《 
这一转换器的基础是在应用层对两个“独立”的连接 
进行中继。端到端的安全分别由这两个连接（即，在 
客户端 C 与网关 G 之间及在网关 G 与目的 D 之间） 
维持。这一机制不提供从最初的源（客户端 C ) 到最 
终的目的（目的 D ) 之间的端到端的安全 中继。 

3转换器的应用 

转换器实现之后，我们对其进行了测试 。测试 
的环境为本实验室的局域网，转换器在一台有互联 
网连接的双栈计算机上运行，局域网上的其他计算 
机只有 IPv 4 的协议栈，通过该转换器访问互联网上 
的 IPv 6 站点。图5和图6所示是通过该转换器进 
行 HTTP 连接的结果。 



图5访问 IPv 6- only 站点 
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图 6 访问 6 t <4 站点 

应用的结果表明，该转换器成功实现了 IPv 4/ 
IPv 6 的转换。 

4 结束语 

由于 IPv 4 的局限性和缺陷 , IPv 6 的出现具有 
必然性。但 IPv 6 在投入使用之前需要经过大量的 
測试，所以二者将会长期共存。从 IPv 4 向 IPv 6 转 
移的过程中，需要用到各种的转换机制。本文研究 
和讨论了转换的几种机制，并描述了我们实现的一 


种基于 SOCKS 协议的 IPv 4 / IPv 6 转换器，利用该转 
换器 ， IPv 4 的应用程序可以不加修改地使用各种 
IPv 6 的服务。该转换器采用客户/服务器的模式， 
在对工作过程进行描述之后，本文对它的适用性及 
安全性进行了分析。 
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An Implementation of SOCKS Ebsed IPv6 / IPv4 Translator 

An Yan , Fang Binxing 

(Dept of Co nip liter Science and Ekigineering , Harbin Institute of Technology , Harbin 150001) 


Abstract 

The inevitability of IPv 6 ’s appearance and IPv 6 & JPv 4 ’s coexistence is introduced . Various kinds of transi ¬ 
tion mechanisms to IPv 6 are discussed , including communications among two or more IPv 6 islands isolated in the 
IPv 4 world , and communications between the existing IPv 4 world and the new IPv 6 world . An inplementation 
of translator is put forward ， which combines SOCKS protocol and 6 to 4 tool . Based on this translator , applica ¬ 
bility concerns and some characteristics are analyzed . 

Key words : IPv 6 ， 6 to 4 , SOCKS , AL G , Translator 


— 35 




ISSN 1000-9825, CODEN RUXUEW 

Journal of Software, Vol.21, No.7, July 2010, pp.1503—1514 

doi: 10.3724/SP. J. 1001.2010.03613 

© by Institute of Software, the Chinese Academy of Sciences. All rights reserved. 


E-mail: jos@iscas.ac.cn 
http: / / www.jos.org.cn 
Tel/Fax: +86-10-62562563 


串匹配算法中模式串与文本之间关系的研究 + 

刘萍 1 气刘燕兵 1 ;> 3 ,郭莉 u , 方滨兴 u 

乂中国科学院计算技术研究所，北京 100190) 

2 ( 中国科学院研究生院，北京 100049) 

3 ( 信息内容安全技术国家工程实验室，北京 100190) 

Research on Relationship Between Patterns and Text in String Matching Algorithms 
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Liu P, Liu YB, Guo L, Fang BX. Research on relationship between patterns and text in string matching 
algorithms. Journal of Software ， 2010,21(7):1503-1514. http://www.jos.org.cn/1000-9825/3613.htm 

Abstract: It was assumed that the pattern and text characters are independent and uniformly distributed over a 
finite alphabet in classical string matching algorithms, and this assumption differs from real applications and causes 
many problems. Considering the probability distributions, the contexts of the characters, and the convenience of 
applications, this paper gives a concept hit rate and four extended concepts about it. Then it gives the theory 
analysis and detailed experiments with hit rate on the four classical algorithms. The map of the relationships is 
obtained between the hit rate and the algorithms’ performance, and at the same time some valuable conclusions are 
made through above work. As a character variable, hit rate describes the relativity of patterns and text and can serve 
as guidelines in the algorithms design, analysis and some other extended research fields of the string matching. 

Key words: string matching; probability distributions of character; relativity of strings 

摘要： 经典的串匹配算法设计和分析中假设“字符互相独立并且等概率出现”,这与实际应用环境差异很大，导致 
出现很多问题.考虑了字符的概率分布和上下文的关联,同时兼顾应用的方便，提出了命中密度的概念.在给出基本 
定义和扩展定义后,通过对 4 种类型的代表性算法的理论和实验分析，给出了命中密度与算法性能之间的关系.同时, 
在对命中密度的分析中得出一些极具价值的结论.对命中密度概念的多角度理解以及对它与算法性能关系的深入 
剖析都说明，命中密度作为一个特征量 ，可以从 一个侧面刻画模式串和文本之间的相关性，它对算法的设计和分析以 
及串 匹 配领域 研究工 作的扩展都具有指导意义. 

关 键词： 串 匹配; 字符概率 分布; 字符串相关性 
中图法分 类号： TP301 文献标 识码 : A 


* Supported by the National Basic Research Program of China under Grant No.2007CB311100 ( 国家重点基础研究发展计划 (973)) 
Received 2008-09-25; Accepted 2009-03-31 


<D 中国科学院软件研究所 


http://www. jos. org.cn 



1504 


Journal of Software 软件学报 Vol.21, No.7, July 2010 


所谓串匹配 (string matching , pattern matching ), 就是给定一组特定的字符串集合 P , 对于任意的一个字符串 
7；找出尸中的字符串在7中的所有出现位置.本文研究的是精确多模式串匹配(简称串匹配)的问题，文献 [1] 中给 
出的定义如下： 

已知有限字符集合模式串集合尸= { p ,. |1 彡矣 r , p,+e i 7 + ，l 彡 j sS m ,} 和文本 T=t\t 2 ...t n 
0,. e 2； l 矣戌 《) ，求户中的模式串在文本 T 中的所有出现位置，即 occur ( P , T )={{ p ,\ x \)\(3 x 3 y ) T = xpy , peP }. 

1问题 

在经历了数十年的研究后,已有上百种串匹配算法出现，对算法时间复杂度的分析也有很好的理论证明.文 
献 [2] 中证明了单模式串匹配的时间复杂度下界是 ■ T 3((« log |2 I m )/ m ), 其中,《是文本长度， m 是模式串长度,|2]是字符 
集大小.文献 [3] 中将其推广到多模式串匹配的 情形: 在字符互相独立并且等概率出现的条件下，精确的多模式串 
串匹配算法的时间复杂度下限是 ■ a (« log l 2 1 »»')/ m )， 其中, r 是模式串个数.文献 [4-6] 中的算法都己经接近或达到 
这一最优值. 

然而，在现有的串匹配算法设计和性能分析中，都只考虑了模式串集合 P 本身的特性，例如字符集大小、模 
式串长度(通常考虑最小长度)、模式串的个数等，对文本数据 T 也只考虑了它的长度，并没有充分考虑应用环境 
的其他因素以及这些因素之间的关系，尤其是模式串和文本之间的关系.此外，在性能的分析和测试中,使用的 
一个前提条件是“字符互相独立并且等概率出现”,这在实际应用环境中也往往不成立，直接导致的后果是很多 
串匹配算法的理论分析和实际效果差别较大 [7 , 8] ，甚至同一种算法在不同文章中体现的性能也有很大差异 [9 _ 12 1 

随着串匹配技术理论研究的日益成熟和串匹配技术应用的不断深入，上述问题己经逐步开始被研究人员 
所关注.文献 [13] 分析了串匹配算法 <文本熵之间的关系,给出了在界定熵文本上的匹配算法，并证明了其平均 
时间复杂度，以及最坏情况下的时间复杂度的范围.文章中认识到了传统的均匀分布假设前提的不合理性，但是 
只分别考虑了模式串的概率分布和文本的概率分布，并未结合考虑实际应用环境下它们之间的关系.文献 [14] 
中设计了一种新算法，它利用概率加权的方法，计算出拥有最大平均跳步的目标串的比较序列，并利用该序列进 
行字符串的匹配.文中对最大跳跃距离的证明也是以“字符相互独立”为前提的.文献 [15] 利用模式串在样本文 
本上的概率分布选取字符集的一个子集，并使用它分别对模式串和文本进行采样，构建 semi - index 数据结构，从 
而加速串匹配算法 . j 章运用文本的一部分作为样本，巧妙地运用它们之间的关系设计了通过减小字符 i 方法 
来提高匹配速度的算法.文献 [16] 中以3个典型的网络内容安全应用系统为背景，详细介绍了其中使用的串匹配 
算法，并进行了算法级别和系统级别的性能测试.文章中虽然没有明确提出模式串和文本之间的关系对算法性 
能会产生一定的影响，但它对算法的跳跃次数、访存次数 、 cache miss 次数、可能的命中次数等方面都进行了 
详细的实验分析，工作值得借鉴. 

为了描述模式串与文本之间的相关性,本文给出了命中密度 (hit rate ) 的概念，概念的定义简单、清晰，在概率 
分布上的理解也很明确.将命中密度作为一个因素加入到对串匹配算法的理论分析中，可以得出命中密度与算 
法性能的关系，由此还可以得出一些极具应用价值的结论. 

为了方便描述，下面给出本文中使用的符号 :文本 7；长度为模式串集合 P , 个数为 r , 最小长度为 m , 字符集 
为2；结果集合 i ?, 个数为兄每个结果为 ( W , pew ) 形式，其中, W 为模式串的唯一标识, pos 为匹配成功的模式串位置. 

2命中密度的概念 

正如第1节中所述，孤立地关注模式串的特征_者文本的特征，都不能很全面地把握串匹配技术.尤其是在 
实际应用中，环境的变化因素是很多的.以网络应用为例，在病毒检测(例如 C . lamAV 开源系统)、网络异常事件检 
测(例如 SNORT 开源系统)、网络协议识别(例如 L 7- Filter 开源系统)等领域中,都大量地使用了串匹配技术，而 
选择哪种算法才是最合适的、选择的算法是否会造成系统性能瓶颈、系统运行中是否需要进行算法更换以及 
如何更换等，都是系统设计人员面临的挑战性问题，而这些问题从某些方面来说是动态的,不能只根据模式串集 
合而得到答案.这种动态性来源于网络数据的变化以及这些变化和模式串之间的关系.图1是江民公司公布的 
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2004年排名第 '的病毒“欢爱病毒”在 '个月内的走势图 [17] ，可以看出，病毒的数量在一定时间范围内的变化是 
非常剧烈的.可以想象，这对在线查杀毒系统造成的压力是不同的，必定会引起系统性能的振荡. 


Trend of virus Win32/FunLove.4070 


Range of query time: 2004/09/12-2004 / 10/12 Time: day 



Fig.l Data burst out trend of virus “ FunLove ” through 1 month (provided by Jiangmin SciTech Corp . Ltd .) 

图 i “欢爱病毒”在一个月内的爆发数量的走势图(江民公司提供） 


造成这种波动现象的原因必然是与模式串和文本都相关，因此研究它们之间的关系很有必要.为了刻画模 
式串和文本之间的关系，于是我们给出命中密度的概念. 

2.1 命中密度的定义 

从串匹配算法的定义可以看出，对于模式串集合 p 和输入文本 r , 它们之间的关系只有通过匹配结果集合 
来互相关联(当然，字符集的大小是 '个因素，但通常对于确定的(八”它是不改变的，只与应用环境相关.例 如:在 
生物信息.学领域中,字符集的大小可能为 4) .因此，命中密度可以定义 如下： 

定义 1. 给定模式串 集合尸 和文本 r ， 命中密度 p 是指单位文本长度内命中的模式串次数， 7). 

命中密度的概念是力图描述串匹配算法中模式串和文本数据之间的关系，因此它可以在模式串和文本数 
据的两个维度上分别进行细定义.如图2所示，我们分别定义了文本上的单位置上的命中密度和平均命中密度、 
模式串集合上的单模式串命中密度和平均命中密度. 

定义 2. 文本上的单位置命中密度&.为在文本 r 的位置〖上命中的模式串个数与文本长度之比，即 

p T .其中,为文本位置 /上命 中的模式串的个数，《为文本 r 的长度. 

1 n 

定义 3. 文本上的平均命中密度&为在文本 r 上命中的模式串次数与文本长度之比，即& =1.其中，足为 

n 

全部模式串命中的次数，《为文本的长度. 

定义 4. 模式串上的单串命中密度为模式串集合尸中的一个模式串尸,.命中的次数与全部模式串的命中 

次数之比，即 /V .其中为模式串的命中次数人为全部模式串命中的次数. 

j K 

定义 5. 模式串上的平均命中密度&为在全部命中的模式串次数与模式串集合中模式串个数之比，即 

& =1.其中叉为全部模式串命中的次数， r 为模式串集合中模式串的个数. 
r 

从上述定义可以看出，文本方向上的命中密度反映的是命中的模式串在文本中分布的情况，单位置上的是 


© 中国科学院软件研究所 http://www. jos. org.cn 















1506 


Journal of Software 软件学报 Vol.21, No.7, July 2010 


个体情况，而平均命中密度是一个平均值，表示命中的模式串在文本上的稠密程度.同样，模式串方向上的命中 
密度反映的是命中的模式串在模式串集合中的分布情况，单串上的是个体情况，而平均命中密度是一个平均值, 
它表示命中的模式串在模式串集合中的分布情况. 


Result set R, (id, pos) 

P ， p =^ 

Pi K 

A pattern’s 
hit rate 

Pattern set’s hit rate 


p = mti is hit times in Vs position of text 
n 

Fig .2 Four extended concepts of hit rate 

图 2 4 个扩展命中密度的概念及其定义 

2.2 对命中密度概念的理解 

命中密度的概念通过串匹配算法中很直观的几个参数值给出了定义，它从一个侧面在文本和模式串之间 
建立了联系,反映了文本和模式之间的相似程度，进而可以描述它对算法性能产生的影响.下面，从模式串和文 
本字符概率分布的角度再来理解一下命中密度的概念. 

在串匹配中，最基本的操作是单个文本字符和单个模式串字符的比较，比较的结果有 两种: 相等或者不相 
等，没有其他结果(这里是相对于近似匹配算法、序列比对算法中的打分系统来说的).文本字符和模式串字符相 
等的概率越小，那么(跳跃型)串匹配算法实现跳跃的距离就越大，算法的速度就越快.为此，我们引入相关度的概 
念来度量文本和模式串的相似程度. 

定义 6( 文本和模式串的 1- 阶相关度). 设模式串各个字符出现的概率分布为 p (0(0< Z < a ); 文本的各个字符 
的概率分布为 #0(0 矣 z '< o ) .模式串和文本的 1- 阶相关 度为& ，它是单个模式串字符和单个文本字符匹 

i =0 

配的概率. 

从定义中可以看出0彡/? 1 彡1.穴 1 越小,说明文本和模式串的相似程度越小，此时的匹配过程适用于11 01 ^ 00 1, 
WM ( WuManber ), SBOM(set backward Oracle matching ) 这一类的跳跃型算法，通过获取较大的跳跃距离得到较 
高的匹配速度;相反， i 越大，说明文本和模式串相似程度越大，这时跳跃型算法会达到最坏的时间复杂度 
0( mn ), 因此更适合采用线性的算法，如 AC ( Aho - Corasick ) 算法. 

1- 阶相关度的概念反映的是字符之间相互独立的情况，而在实际的自然语言中，文本或者模式串的前后字 
符是有关联性的.为了反映这种关联性，我们给出了 / t - 阶相关度的定义. 

定义 7( 文本和模式串的阶相关度). 设长度为 A 的字符串^在模式串中出现的概率分布为 pCsm ... 
^)，长度为左的字符串_ 2 ...^在文本中出现的概率分布为咖^ 2 ...&),那么定义模式串和文本的 h 阶相关度为 
R k = I P ( S l S 2 -- S k ) ' l ( S \ S 2 -- S k ) ，它反映的是长度为灸的模式串子串和长度为 A ： 的文本子串的匹配概率. 




mpj is the patterns’ hit times 
Pattern set 



text position text positions 
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以实际算法中的使用 为例: Horepool 算法只根据最后一个字符计算跳跃距离，因此 1- 阶相关度&即能反映 
它的跳跃 能力; Wu-Manber 算法是根据最后6个字符进行跳跃，所以 Z )- 阶相关度 &反映 的是它的跳跃 能力; 而 
SBOM 算法是根据子串决定跳跃距离的,因此可以使用.，足„反映它的跳跃能力. 

特别地, m - 阶相关度反映的就是本文定义的命中密度.这是因为 

_ r 

K = X p( s i s 2 - s ,n)- l(s l s 2 ..s m )= Xp(V2 = p i)-<l(s l s 2 ...s m =Pi) 

5 1 5 2 … s m *' = 1 

= tcf 在模式串中出现的频率) • cf 在文本中出现的频率） 



3串匹配算法中的命中密度 


本节将在定义的4种命中密度中选择两个加以分析和实验，进一步阐述命中密度与串匹配算法之间的关 
系，以及从命中密度的角度探索一些真实的串匹配算法在真实环境中运行的规律. 


3.1 文本上的平均命中密度对串匹配算法性能的影响 

串匹配算法按运行机制可以分为跳跃型算法和非跳跃型算法两类，按算法使用的数据结构可以分为基于 
自动机的算法和基于查表(主要是哈希表)的算堵两决.根据这两种分类标准，串匹配算法可以分为如下4类，我 
们选取每一类中的代表性算法进行理论分析和 实验： 

• 基于自动机的非跳跃型算 法:代 表算法为高级 AC 算法 [18] ; 

• 基于自动机的跳跃型算法 :代表 算法为 SBOM 算法％ 

• 基于查表的非跳跃型算法:代表算法为 SOG( S hift-or W ithq-gram) 算法 [19] ; 

• 基于查表的跳跃型算法 :代表 算法为 WM 算法 [4] . 

3.1.1 理论分析 

下面以4种代表算法为例,分析它们匹配过程的平均时间复杂度与命中密度之间的关系. 

高级 AC 算法. 

定理 1: ♦级 AC 算法匹配的时间复杂度为 OWl + cp ))， 其中，常数 c 为报告一次模式串匹配所需要的时间. 
证明: 在高级 AC 算法中，对于每一个字符需要进行•次自动机的状态转换，并检#当前状态是否有命中的 
模式串.设进行一次状态转换的时间代价为1,报告一次模式串匹配所需时间为 c .由¥对于每个文本位置，有模 
式串命中的概率为所以每处理一个文本字符的时间为 1+ C p . 因此有 :高级 AC 算法匹配的时间复杂度为 
0(«( l + cp )), 其中，常数 c 为报告一次模式串匹配所需要的时间. □ 


SBOM 算法. 

定理 2. SBOM 算法匹配的时间复杂度为0 
串和文本校验过程的时间代价. 


p(m + c ) + (\- p ) 


log |r| mr 


证 明:在 没有命中的情况下, SBOM 算法的时间复杂度为 O 


m — log^i mr 


，其中，常数 c 为进行一次模式 


.对于每个文本位置，当有模式串 


m — log | r | mr 

命中时，需要扫描整个匹配窗口内的字符并进行模式串和文本的校验，时间代价为 0( m + c ). 当没有模式串命中 

login mr 


( 


时，处理一个文本位置的平均时间代价为 O 


m — log | X | mr 


.有模式串命中的概率是 A 没有模式串命中的概率是 
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1 - A 因此有: SBOM 算法匹配的时间复杂度为 O 


； o ( m + c ) + ( l - p )- 


log^i mr 


，其中，常数^为进行一次模式 
□ 


m - log 闷 mr 

串和文本校验过程的时间代价. 

SOG 算法. 

定理 3. SOG 算法匹配的时间复杂度为 O («( l + C plog 0), 其中，常数 c 为进行一次模式串和文本校验过程的 
时间代价. 

证明: SOG 算法的运行机制与高级 AC 算法比较相似，处理一个字符的时间代价为 0(1) .但是对于可能的模 
式串命中, S 0 G 算法需要进行校验 . S 0 G 的校验过程是在整个模式串集合上进行二分查找，校验的时间代价为 
dogr . 因 此有: S 0 G 算法匹配的时间复杂度为 OWl + C plogr )), 其中，常数 C 为进行一次模式串和文本校验过程的 
时间代价. 口 

WM 算法. 


定理 4. WM 算法匹配的时间复杂度为0 


P(c h +c) + {\- p)~ 


c h 


mr 

^ b+l V-wf, 


，其中，常数 q 是进行 


-次哈希值计算的时间代价，常数 c 是进行一次模式串和文本校验过程的时间代价. 

证明 ： WM 算法的分析与 SBOM 类似.在没有命中的情况下， WM 算法的时间复杂度为 


0 


( m-b + \)\ 1- 


2\Z\ b 


.对于每个文本位置，当有模式串命中时需要进行一次哈希值的计算并进行模式串和 


文本的校验，时间代价为 0( c A + c ：). 当没有模式串命中时，处理一个文本位置的平均时间代价为 

( 、 


0 


c h 


( m-b + \)\ 1 - 


2|2T 


.有模式串命中的概率是 A 没有模式串命中的概率是 1- A 因此有: WM 算法匹配的时 


间复杂度为0 


p ( c h + c ) + (\- p )~ 


C h 


( m - b +\)\ 1- 


2\£\ b 


，其中，常数 c ;, 是进行一'次哈希值计算的时间代价，常 


□ 


数 c 是进行一次模式串和文本校验过程的时间代价. 

综合以上分析，我们可以得出以下 推论： 

推论.在其他影响因素不变的情况下，串匹配算法的匹配的时间复杂度是命中密度的线性函数. 

3.1.2 实验分析 

本节中，我们通过实验的方法来验证对算法性能与命中密度之间关系的理论分析结果. 

实验数据的构造 

因为在真实数据中很难获得不同命中密度的数据，因此对于有关命中密度与匹配性能关系的实验需要在 
随机构造的数据上进行.使用随机数据进行算法的分析和测试是串匹配领域中比较通用的方法,但是考虑命中 
密度因素的随机数据构造方法与原有方_法仍然有些不同.这是因为原有方法是完全随机生成的数据，通常没有 
命中，很难控制不同的命中密度水平.例如：当字符集大小|2]=256,模式串长度 m =4 字节，模式串个数 r =5000, 文本 

■- ,20 5000 


长度 «=1 M 字节时，在完全随机生成数据的情况下，命中模式串个数的期望值为 


i^r 


256 4 


= 1 . 2 . 
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Hit rate 

Fig .3 Relationship between the matching speeds and hit rates , |2|=256, r =5000, m =8 
图 3 |2|=256, r =5000, m =8 时，算法性能与命中密度的关系 

典型参数下的实验是给出一个类似真实应用环境的示例，真实应用中，字符集大小为256,模式串最小长度 
通常较小，模式串个数适中，此时可以清楚地看到，4种算法的匹配速度都随着命中密度的增大而显著降低.其 
中: AC 和 SOG 是非跳跃算法，它们的性能表现较 稳定; 而跳跃型算法 SOG 和 WM 的性能随着命中密度的增大 
急剧下降.这是由于命中密度大时将会大幅度地降低跳跃型算法的跳跃距离，从而降低它们的速度，而这对非跳 
跃算法而言基本没有影响. 

其次，为了更详细地说明算法的各主要性能参数与命中密度的关系，我们从3个方面进行了实 验:模 式串长 
度变化下命中密度与性能的关系，长度取值为4,8,32字节，实验结果见表 l (|21=256， r =5000); 模式串个数变化下 
命中密度与性能的关系，个数取值为500,10 000,50 000,实验结果见表 2(]21=256, m =8) ; 字符集大小变化下命中密 
度与性能的关系，字符集大小取值为4,32,128,实验数据见表 3( r =5000, m =8) .实验中生成的文本长度为 20 MB . 表 
中数据的单位为 MB / s . 

表1中给出的是在模式串长度变化情况下，算法性能 S 命中密度的关系 (注: m =20 时，命中密度最大为 
l / m = l /20=0.05) .可以看出，每种算法的匹配速度随着命中密度下降的趋势有所不同.非跳跃型算法 AC 和 SOG 
比较匀速，而跳跃型算法在模式串长度增大时，性能下降的速度明显加快.例 如: SBOM 算法在 m =4 时，命中密度 
从 0.01 变化到 0.05 时相应的速度从 67 MB 变化到 34 MB ， 性能下降尺度约为12-12-7-4,共下降了 50%;在 m =8 
时,相应的速度从 61 MB 变化到 214 MB , 性能下降尺度约为 21-10-5-3, 共下降了 66%;在 m =20 时,相应的速度从 
33 MB 变化到 8 MB , 性能下降尺度约为 14-6-3-2, 共下降了 76%.这是因为跳跃型算法的性能受模式串长度因素 
的影响非常大所造成的. 


本文构造随机数据的万法如下： 

Step 1. 根据设定的参数 |2|, r ， m ， n , 随机生成 r 个长度为 m 的模式串，随机生成长度为 n 的文本串.模式串和 
文本串的字符均勻地取自字符集 {0,1,2,. ..,|2]-1} ; 

Step 2. 根据设定的命中密度和文本长度确定命中的模式串个数 hit _ num = pn .， 

Step 3. 随机地从模式串集合中取出 hit num 个模式串(一个模式串可重复取多次)，将这 hitjmm 个模式串 
均匀地、无重叠地撒入到长度为《的文本串中.这样就可以确保命中密度的水平是 p . 

需要说明的是，在上述构造方法中，为了确保命中的模式串不互相干扰破坏，必须要求模式串是以无重叠的 
方式撒入到文本中的，这样就要求构造的命中密度 p 不能超过 1/ m . 这种要求通常是合理的，因为在实际应用中, 
出现命中的模式串互相重叠的情况比较少，特别是在很多网络应用中，命中密度更小，通常不会超多 1/100. 

实验结果及分析 

首先，以典型参数配置为例给出算法性能与命中密度的关系，如图3所示, 



(s/mpM) p99ds e>o sq oJB3s 
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Table 1 Relationship between the matching speeds and hit rates when the lengthes of pattern is different 
表 1 不同模式串长度情况下，串匹配算法的匹配速度与命中率之间的关系 


Hit rate 

m=4 

w=8 


m- 

=20 


AC 

WM 

SBOM 

SOG 

AC 

WM 

SBOM 

SOG 

AC 

WM 

SBOM 

SOG 

0.00 

61.133 

167.31 

87.226 

152.99 

61.133 

454.13 

122.27 

167.31 

55.446 

608.73 

304.37 

167.32 

0.01 

50.727 

76.294 

67.636 

122.26 

39.736 

122.26 

61.133 

122.27 

22.599 

151.38 

33.898 

122.27 

0.02 

43.547 

60.873 

55.446 

101.46 

30.469 

76.294 

40.755 

101.46 

14.192 

87.226 

19.073 

87.493 

0.03 

36.68 

43.613 

43.547 

82.928 

24.432 

61.133 

30.534 

86.961 

11.098 

73.36 

13.27 

76.294 

0.04 

33.898 

39.736 

38.147 

67.958 

20.583 

46.979 

25.431 

73.36 

9.341 

61.133 

10.174 

63.157 

0.05 

30.501 

34.553 

34.553 

65.32 

17.96 

40.755 

21.052 

61.133 

8.633 

61.133 

8.361 

58.99 

0.06 

29.046 

31.031 

31.579 

55.446 

15.66 

35.942 

17.96 

55.446 

— 

— 

— 

— 

0.07 

24.411 

27.75 

27.326 

50.908 

14.192 

33.898 

16.5 

50.817 

— 

— 

— 

— 

0.08 

24.411 

26.54 

26.54 

46.979 

12.716 

32.11 

14.53 

46.979 

— 

V — 

— 

— 

0.09 

22.907 

24.411 

24.771 

43.547 

11.966 

30.534 

13.363 

41.645 


— 

— 

— 

0.10 

21.79 

22.599 

22.599 

40.697 

11.098 

29.075 

12.369 

38.147 

* - 

- 

- 

- 


Table 2 Relationship between the matching speeds and hit rates when the size of pattern set is different 
表 2 不同模式串个数情况下，串匹配算法的匹配速度与命中率之间的关系 


Hit rate 

r=500 | 

r=10000 | 

r=50000 

AC 

WM 

SBOM 

SOG 

AC 

WM 

SBOM 

SOG 

AC 

WM 

SBOM 

SOG 

0.00 

114.45 

454.13 

608.73 

167.31 

38.147 

153.82 

101.46 

167.32 

9.25 

114.45 

76.294 

153.00 

0.01 

101.87 

202.91 

304.36 

130.64 

27.723 

96.331 

46.979 

122.27 

8.847 

67.636 

33.939 

101.46 

0.02 

91.699 

151.38 

202.91 

107.96 

22.599 

76.294 

32.11 

101.46 

8.515 

50.817 

22.599 

76.294 

0.03 

87.493 

107.97 

151.38 

91.699 

19.073 

61.133 

24.411 

82.928 

8.25 

41.645 

16.969 

61.133 

0.04 

87.226 

87.493 

122.27 

86.961 

16.349 

53.88 

19.69 

67.797 

8.028 

35.852 

13.566 

50.999 

0.05 

86.698 

76.294 

101.46 

73.36 

14.538 

46.979 

16.49 

61.133 

7.823 

31.064 

11.304 

44.634 

0.06 

76.294 

70.643 

96.331 

67.636 

12.993 

43.547 

14.192 

53.88 

7.629 

27.75 

9.842 

40.64 

0.07 

76.294 

67.636 

87.226 

60.873 

11.818 

40.697 

12.461 

46.979 

7.503 

26.128 

8.638 

35.852 

0.08 

76.294 

67.797 

76.294 

55.446 

10.962 

38.147 

11.233 

43.547 

7.353 

24.391 

7.728 

32.11 

0.09 

76.294 

67.797 

73.36 

50.817 

10.174 

38.147 

10.178 

40.64 

7.267 

22.599 

7.016 

29.526 

0.10 

76.294 

73.36 

67.797 

46.979 

9.537 

35.942 

9.393 

36.68 

7.208 

21.052 

6.426 

27.3 


表2中给出的是在模式串个数变化情况下,算法性能与命中密度的关系.可以看出，每种算法的匹配速度随 
着命中密度下降的趋势有所不同，基于自动机类型的算法 AC 和 SBOM 整体相对较匀速,而基于查表的算法在 
模式串个数增大时，随着命中密度的增大,性能有所下降，下降的速度在密度较低(<0.05)时较快，之后稍缓慢.例 
如： SOG 算法在 r =500 时，命中密度从 0.01 变化到 0.10 时,相应的速度从 130 MB 变化到 46 MB , 性能下降了 65%, 
变化步长约为 23-26-4-13-6-7-5-5-4; 在 r =5000 时,相应的速度从 101 MB 变化到 27 MB , 性能下降了 72%,变化步 
长约为 24-25-11-6-4-5-3-3-2 .造成这种现象的原因是,基于查表的算法其运行时间随着命中密度的变化受模式 
串个数影响相对较大.例如，在 SOG 算法中，其影响系数为 clogr , 这种关系在上述变化步长中表现得非常明显. 


Table 3 Relationship between the matching speeds and hit rates when the sizes of alphabet is different 
表 3 不同字符集大小情况下，串匹配算法的匹配速度与命中率之间的关系 


Hit rate 

1 _^_ 1 

S=3>2 | 

5*=128 

AC 

WM 

SBOM 

SOG 

AC 

WM 

SBOM 

SOG 

AC 

WM 

SBOM 

SOG 

0.00 

33.268 

45.776 

24.391 

12.716 

55.446 

202.91 

101.82 

183.40 

52.4 

167.32 

122.27 

202.91 

0.01 

33.939 

43.547 

23.49 

11.102 

38.147 

153.82 

58.99 

122.27 

30.566 

101.82 

55.446 

122.27 

0.02 

32.11 

43.613 

22.599 

10.233 

30.469 

151.38 

41.645 

101.46 

24.432 

86.961 

38.147 

101.46 

0.03 

30.534 

40.755 

21.79 

9.247 

25.431 

122.27 

33.898 

82.928 

21.052 

73.36 

29.075 

87.226 

0.04 

30.501 

40.697 

21.052 

8.477 

21.807 

101.46 

27.326 

68.12 

18.494 

65.32 

23.49 

76.294 

0.05 

29.016 

38.147 

18.506 

7.927 

19.463 

101.46 

23.49 

61.133 

16.5 

58.99 

19.704 

63.157 

0.06 

26.565 

38.147 

19.279 

7.325 

17.435 

87.493 

20.349 

55.446 

15.018 

55.446 

17.435 

55.446 

0.07 

26.565 

35.942 

19.463 

6.783 

15.921 

82.928 

18.131 

50.727 

13.983 

50.908 

15.382 

50.817 

0.08 

26.94 

35.852 

18.885 

6.492 

14.538 

76.294 

16.5 

43.613 

12.987 

50.817 

14.192 

46.979 

0.09 

26.516 

35.191 

17.759 

6.022 

13.457 

70.469 

15.018 

40.755 

12.206 

49.413 

12.993 

43.547 

0.10 

25.431 

33.939 

18.305 

5.758 

12.455 

67.797 

13.882 

38.147 

11.44 

48.165 

11.966 

38.925 


表3中给出的是在字符集大小变化情况下，算法性能与命中密度的关系.可以看出, AC 和 SOG 算法的性能 
随着命中密度的变化基本与字符集大小的变化无关，是很均匀的，而 WM 和 SBOM 算法的变化情况相对大一些. 


Q 中国科学院软件研究所 


http :// www . jos . org.cn 



刘萍 等: 串匹配算法中模式串与文本之间关系的研究 


1511 


尤其是 WM 算法，它的表大小直接与 | 习和6相关，当命中密度不断增大时, WM 算法的匹配时间随着|习的增大而 
增大，由算法的理论分析也可以看出，这种增大的幅度将会有所加强.从实验数据上看，当 | 习从4增大到32和128 
时，算法的匹配性能之比 (0.01 时的速度 /0.1 时的速度)也由原来的 1.3 增大到 2.28 和 2.1. 

由上述分析可以看到，随机数据下的实验结果完全可以验证对算法时间复杂度的结果.我们可以得出如下 
结论： 

结论 1 . 串匹配算法的匹配速度随命中密度的增大而降低. 


进-步分析实验结果,结合图3的曲线图可以看出，在不同的命中密度区域上，不同算法的性能表现很不相 
同.例如:在密度小于1%时, WM 算法的性能表现 最好; 但当密度大于1%时, SOG 算法的表现就超过了 WM , 并且 
一直比其他算法的性能更优 .WM 算法的性能曲线图非常陡峭，这说明它受命中密度的影响非常大， SBOM 次 
之, AC 和 SOG 算法最平缓.因此我们还可以得出如下 结论： 

结论 2 . 不同的串匹配算法对文本命中密度的敏感程度不同. 


3.2 模式串上的命中密度 

在模式串方向上，单模式串的命中密度反映了一个模式串个体的命中与全部命中次数之间的关系，它可以 
从一个较小的颗粒度上观察命中密度的情况.本节中的实验选自真实的数据集： 

• 模式串 集合: Snort 模式串集合 [M] :来 自开源系统 SNORT , 版本:2006年10月11日，选取每条规则中的字 
符串片断，共计5 029 个; ClamAV 模式串集合 [21] :来自 开源系统 C . lamAV , 版本:0.90.1,选取每条规则中最 
长的字符串片断，共计79 561 个； 

• 文本数据 :选自 MIT 公布的一组用子 <IDS 测试的真实网络数据 [22] ，本文中使用了第1个星期的共5天 
的数据，每天的数据大约在 600 MB -800 MB 左右. 

实验分为两组，分别用 Snort 模式串和 ClamAV 模式串在 MIT 的5天的文本数据上进行匹配,统计全部模式 
串命中的次数之和，并按照命中次数从大到小，统计了 Top 10的命中次数之和.实验结果如图4和图5所示. 


6 「 xl0 7 Test on Snort data set 



Mon. Tue. Wen. Thu. Fri. 
Days 



Days 


Fig .4 Test of hit rate on patterns with Snort data set Fig .5 Test of hit rate on patterns with ClamAV data set 
图 4 Snort 数据集上的模式串命中密度 图5 ClamAV 数据集上的模式串命中密度 

图中左侧是全部模式串命中次数之和，右侧是 TOP 10的命中次数之和.两组数据上的命中次数都非 常多: 
Snort 数据集上，命中的模式串个数约有 700-800 个左右，命中的次数从几十万次到百万次 不等; ClamAV 数据集 
上，命中的模式串个数较少，约有20~30个左右，命中的次数也是从几十万次到百万次不等.两组数据上的一个共 
同点是: Top 10之和与全部命中次数的比例很大，都在90%以上;在 ClamAC 中，这个比例更高. 

上述现象的原因是，在真实的应用环境中，事件的发生在一段时间内(即在一定时间区间的文本数据上 ；) 通 
常是比较集中的. 例如: Snort 系统中, 4内甚至是一周内，频繁发生的网络异常事件总是集中在有限的几个上; 
而在 ClamAV 系统上，表现的则是病毒爆发的集中性. 

更进-步地，我们将每组命中数据上5天的数据进行更细致的比较，找出其中相同的模式串，发现 Snort 数据 
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Hit rate 

Fig .6 Relationship between hit rates and the skip distance of WM and SBOM 
图 6 WM 和 SBOM 算法的平均跳跃距离与命中密度的关系 

5结束语 

在串匹配算法研究过程中，模式串与文本之间的关系是不应回避的.本文给出了命中密度的概念，并从概率 
分布的角度对其进行了解释.运用此概念，我们对4类算法中的典型算法的时间复杂度进行了理论分析，得出了 
算法性能与命中密度的关系，并通过随机数据的实验进行了验证.此外，在研究模式串上的命中密度时，我们发 
现了非常有趣的 2-8 定律现象.文中通过分析和实验得出了关于命中密度的几个很有用的结论. 

对命中密度进行研究的意义体现在两个 方面： 


上共有32个, ClamAV 数据上有21个.这个相对固定的小模式串集合的存在,反映了真实数据集上的固有特性. 
由此我们可以 得出： 

结论 3. 在真实应用环境中，模式串上的命中率符合 2-8 定律，即少数模式串的命中次数占全部模式串命中 
次数的大部分. 

4命中密度对算法性能影响的深入分析 

在给出了命中密度的定义之后，我们通过理论分析对4种算法匹配过程的时间复杂度进行了细致的分析, 
并通过实验验证了理论分析的结果.即 :命 中密度，尤其是文本上的平均命中密度对串匹配算法的性能有很大的 
影响.造成这种现象的原因有以下几个 方面： 

首先，最直接的原因来自于命中导致的代价开销.对于某些串匹配算法，_次命中都需要进行相应的校验， 
这需要花费较多的时间.例如 :对于 SOG 算法，每一次可能的命中都需要在整个模式串集合上进行二分查找，这 
个开销是比较 大的; 对于 SBOM 算法，基于子串的匹配可能会有误_，当有一个可能的命中时，也需要在模式串 
和文本之间进行校验，这个过程的时间开销与模式串长度 m 相关； 

其次，对于跳跃型算法，频繁的命中会导致平均跳跃距离的降低.对于跳跃型算法，如 WM,SBOM 等,平均跳 
跃距离是影响算法性能的最关键的因素.平均跳跃距离越小，算法运行越慢.频繁的命中会导致两个匹配窗口之 
间的跳跃距离减小.图6是不同的命中密度水平下, WM 和 SBOM 算法的平均跳跃距离的变化图(|2]=256, 
r =5000, m =8) .可以看出，随着命中密度的增大，算法的平均跳跃距离不断 减小； 

最后，命中密度的大小反映了文本和模式串之间相关性的大小.命中密度越大，表明文本和模式串之间越相 
似，因而在每个匹配窗口内需要处理的开销也相应增多.例如对于 SBOM 算法，文本和模式串越相似，在匹配窗 
口中反向扫描的字符数也越多，相应的自动机中结点访问的层次也越深，算法的 Cache 局部性也会降低. 

此外，深层次的原因还$以从以下几个方面来分析 :算法 匹配过程中产生的可能命中(也称为候选命中 ：) 的 
次数、 Cache 的大小、 Cache Miss 的次数%.其中，有些因素是串匹配算法领域独有的，而有些则是计算机科学中 
各种算法研究领域都要长期面对的研究课题. 



(uoUBlslplJIqs 36023AV 
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• 可以针对不同的应用设计新算法.设计思路有两种 :思路 1是“量身定做”，例如在网络内容安全应用中， 
真正命中的网络流量<10%，命中率非常低，因此可以设计高效的过滤型算法，快速处理 no - match 的 数据; 
思路2是“以不变应万变”，例如结合 AC 算法和 WM 算法的原理(自动机数据结构 ：) 特点，设计自适应文 
本数据流的算法.此外，充分利用模式串命中密度中的 2-8 定律现象也可以设计基于分组的串匹配 算法; 
• 在多个候选算法中选择最优算法.思路是“让合适的人干合适的事”，这其中，静态算法选择可以应用在 
特定应用系统的设计之初.例如:针对病毒检测问题，在系统设计时可以人工地选择一种最优的 算法; 动 
态算法选择可以应用在数据未知的情况下，例如 :对在 线内容过滤系统可实时监测，根据不同的命中密 
度的变化而动态调整在线算法，从而提高整个系统的吞吐率. 

当然，目前给出的命中密度的定义还有一定的局限性，它虽然能从一个稀疏/稠密的角度去描述命中的情 

况，但是它不能很好地描述全部命中在文本中的分布情况.例如:虽然都是 [ 个命中，但分布可能是均匀的，也可 

能是正态分布的情况.相应地，在构造数据时也使用了均匀分布的情况，这与实际应用环境还有一定的差异.因 

此，在特定命中密度下，不同的数据分布是否对算法性能有影响，以及如何给出特征量来描述这种分布的不均匀 

性，都是值得深入探讨的问题. 
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基于 FPGA 的正则表达式匹配算法综述 


唐球 U 2 , 姜磊 2 ,谭建龙 2 ,刘金刚 U2 
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摘要 ：分析 了基于硬件正则表达式匹配的优势，介绍了基于现场可编程门阵列 （ FPGA ) 的正则表达式匹配算法 
的基本思想和设计方法，从匹配速度和资源利用率两个技术指标的角度对现有算法进行分类 ，综 述了当前的主流算 
法并分析了其优缺点，最后论述了目前基于 FPGA 正则表达式匹配算法设计的难点并展望了未来研究的发展趋势。 

关键词 ： 有穷自 动机 ; 现场可编程门阵列；正则表 达式 ; 入侵检测；模式匹配 
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Survey on FPGA-based regular expressions matching algorithms 

TANG Qiu 1 ' 2 , JIANG Lei 2 , TAN Jian-long 2 , UU Jin-gang 1 ' 2 

(1. Joint Faculty of Computer Scientific Research, Capital Normal University, Beijing 100037, (^ina; 

2. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China) 

K V 

Abstract: The advantages of hardware-based regular expressions matching were analyzed- At the same time, the basic 
ideas and methodology for Field Programmable Gate Array ( FPGA) -based regular expre^kwns matching were introduced. 
Furthermore, an algorithm classification approach was proposed in terms of two technical indicators: matching speed and 
resource utilization. The advantages, disadvantages and the basic id^g^yariou^^lgorithms were summarized. Finally, the 
key techniques, difficulties and the future direction in this field wd 

Key words ： finite automata; Field Programmable Gate expression; intrusion detection; pattern 

matching 


o 引言 

互联网发展与普及，给人们带来便利的同 
益严重的各类网络安全问题。因此网络入侵检测贫当 
安全至关重要。由于正则表达式具有较强的表_力，能够 
描述更为广泛的负载特征 [1] ，用正则表达式描述各人侵行 

#是在当今网络 




背景之下，支持 
速检测变得更加困 


带宽与人侵规则集规模均日益增长的： 

大规模规则集下,对海量网络数据？ 

难。 

由于现场可编程门阵列 （ field Programmable Gate Array, 
FPGA) 具有天然的并发性、逻辑 ^ 源丰富、可扩展性等优势， 
基于 FPGA 的正则表达式匹配成为近年来网络人侵检测领域 
的研究热点。研究人员在如何更有效地利用 FPGA 的特性设 
计新算法从而提高匹配速度和节省硬件资源方面做了大量的 
工作。本文对近几年基于 FPGA 的正则表达式匹配领域的主 
流算法进行了分类综述,并分析了本领域面临的主要挑战和 
未来的发展趋势。 

1硬件正则表达式匹配的优势 

随着互联网的快速发展，网络人侵检测系统面临线速处 
理海量网络数据的速率挑战，同时用以描述各种新旧网络人 
侵行为特征的规则集变得越来越庞大。以 Sn 0 rt [2] 为例，表1 


2003 年至 2007 年 Snort 发布的 7 个版本中规则增长 
的情况，表中可看出从 2003 年 10 月 Snort 2. 1 规则集（含 11 
199 个字符）到 2008 年 1 月 Snort 2. 8 规则集(含 75 602 个字 
符）字符总数增长了 5. 75 倍，还可看出 Snort 规则集不仅非常 
庞大而且仍呈快速增长趋势。因此网络人侵检测系统亟需一 
种更高效的规则匹配机制。 

表 1 不同版本的 Snort 规则所含模式串字符总数 [3] 


版本号 

发行时间 

模式串总字符个数 

V2. 1 

2003-10 

11199 

V2.2 

2004-06 

20911 

V2.3 

2005-01 

33618 

V2.4 

2005-07 

52841 

V2.6 

2006-06 

63953 

V2.7 

2007-05 

68 941 

V2.8 

2008-01 

75602 


由于硬件天然的并发性、高速性以及正则表达式强大灵 
活的描述能力，使得基于硬件的正则表达式匹配成为近年来 
网络人侵检测技术的研究热点。基于硬件实现的模式匹配的 
最大优点是 :在大 规模模式集下仍能获得高吞吐率的模式匹 
配性能，而软件实现时，它的性能随着模式集的增长而迅速递 
减[ 4] 。 

实现正则表达式匹配的主流硬件有 FPGA 与专用集成电 
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路 （Application Specific Integrated Circuit , ASIC ) 0 ASIC 的主 
频略高于 FPGA 的主频，但 ASIC 将模式匹配引擎的电路定制 
好后，将不能修改，这使得基于 ASIC 模式匹配的规则升级非 
常困难。相比之下，基于 FPGA 的电路设计具有可定制的灵 
活性、规则升级方便、性能高、资源充足、可重用等优势。 

2基于 FPGA 的正则表达式匹配算法 

2.1 基于 FPGA 的经典算法 

正则表达式匹配引擎主要有非确定型有穷自动机 
(Nondetenninistic Finite Automata , NFA ) 和确定型有穷自动机 
(Deterministic Finite Automata , DFA ) 两类，完全基于 FPGA 逻 
辑的实现一般采用 NFA [5] 。2001年 ， Sdhu R 等人第一次提 


人员提出了多种多字符输人自动机。 

2002 年， Cho Y H 等人首次提出了每个时钟周期能并行 
处理多字符输人的一种新架构 [15] 。 2004 年 , Clark C R 等人 
提出了类似的多字符输人并行自动机 [4] 。该类自动机是一 
个多输人多路并行的 NFA 。 由于模式匹配的起始点可以发 
生在输人字符串的任意位置，在一个多字符输入 （ iV - 路）的 
自动机中，需要以输人字符的每个可能的位序为开始匹配点， 
所以在 FPGA 上每个模式匹配器必须实现 /V 路并行自动机， 
第 i 个自动机从/ V 个多输人字符串的第；个位置开始匹配模 
式。文献 [4, 15] 中的方法只给出了精确串的多字符输入的 
NFA 实现方法。 2008 年, BadranTF 等人在文献[ 4 , 15] 的基 
础上实现了支持正则表达式三类元字符 （* ，+ ,?) 的多字符 


出了从正则表达式到基于 FPGA 的 NFA 的映射算法 [6] ，该算 
法给出了正则表达式的四种基本操作转化为 NFA 逻辑电路 
的基本构造方法（如图1 [6] 所示， Ni 为该算法生成的一个正 
则表达式模块）。 


> 

Filp- 

o 

1 么 

o 

flop 

A 


ol ^Tlo2 i2 

ol|il 


Character/ 


Jo2 


N1 


N2 


N1 


N2 


N1 


(a ) 单个字符 (b) N1IN2 (c) N1N2 

图 1 四种正则表达式对应的 NFA 逻辑电路图 


(d) N1* 


该方法用一个触发器表示 NFA 一个状态，用一个字符 < 


输人的 nfa [16] 。 

2008年 , Yamagaki N 等人提出了另一种新颖的多字符输 
人的 NFA 构造算法 [17] 。算法迭代 ft 次，即可将一个单字符输 
人的 NFA 转化为一个等价的输人$符为2 4 的多字符输人的 
NFA 。 该算法与文献 [4, 15「10&同,它是将传统师入的单 
字符的转移边变为多字转移边，所以该算法构造出的 
NFA 运行时不需要多的自动机，一个自动机即可。 

2.4 素导向夸气# 

@能大规模人侵规则集,研究人员分别从转移 
&享模 式子串、复杂语法实现等多方面去优化 
[的硬件资源。 

转移表精简自动机 



、字符 

二出 I 就必 ■的— ) ['所以有-类算法是针对 





B ] 的嵌人 


开销为 0(1)( —个时钟周期）。由于该算法是 
开创性的研究，它未考虑如下几点：1 ) 正则表 i 
的有效实现(如数量限定 符）; 2) 正则表达式引擎 
字符比较器,浪费大量硬件 资源; 3) FPGA 可并行 j 
式内存 (block RAM ) 的充分利用。 

2003年 ， Clark C K 等人[ 7 ]采用一的8 -256 的集 
中字符译码器代替 Sidhu 等人提出^|^ 6] 中采用的分布式 
字符译码，节省了大量的硬件资 -13] 中的设计均 
充分利用了 FPGA 的嵌人内存&#06年 , Lin C H 等人在文献 
[6] 的基础之上扩充了另外5 4元字符的实现 [14] 。 

2.2 性能指标导向算法分类方法 

基于 FPGA 正则表达式匹配算法的优劣主要从系统的 
“速度”与“面积”两个性能指标评价。速度指标一般用吞吐 
量( throughput ) 来衡量，吞吐量指一个系统在每秒内能处理的 
输人字符的最大比特 位数; 面积指标指设计所占用的 FPGA 
逻辑资源数，一般用每个模式字符占用的逻辑单元数 （ LEs / 
char ) 来衡量。“速度”与“面积”两个指标一般成反比关系， 
评价一个算法的优劣需要兼顾这两个指标 。 Clark C R 等人 
提出了“性能 ( performance ) ”指标 [4] ，它能兼顾速度与面积这 


何更有效地节约 DFA 的存储空间。 

九' & 2007年 , Hayes C L 等人提出了一种精简确定型有穷自 

'' 动机 DPICO [10] 0 将一个状态中一个最大输人字符集能转移 
到相同的一个状态的多条转移边合并为一条默认转移边，自 


动机运行匹配失败时选择默认转移边。实验结果表明反映转 
移边与状态数之比的转移因子小于 0.5 时，该方法才能有效 
节省 DFA 的存储空间,转移因子越小，节省的空间越多。在 
选取的 5 组 Snort 规则中，实验表明该方法最终能节省 90% 
的存储空间。 

2009 年， Lin W 等人提出了另一种精简确定型有穷自动 
机 CPDFA [9] 。作者发现 DFA 的每个状态到它的下一（转移） 
状态集的各个状态的转移边的分布不是均勻分布 ,90% 以上 
的转移边转移到三个下一状态。因此 CPDFA 将每个状态到 
它的转移概率最高的三个下一状态的转移边存人间接转移表 
(需要访存两次），剩余转移边以是否小于或大于 K 分别存储 
在 / C 路并行的 SRAMs 或直接转移表中。该方法与纯 DFA 实 
现相比节省了 90% 的存储空间。 

2010 年, Korenek J 等人提出了一种节省 FPGA 资源的新 
架构: NFA-S P lit [8] ，将 NFA 的状态分为有冲突与无冲突的两 


两个指标。性能指标被定义为吞吐量乘以字符密度，字符密 
度为每个逻辑单元平均能存储的字符数。研究人员为了追求 
更高性能的自动机,均从提高速度、节省硬件资源两方面去改 
进系统设计。因此现有的算法可按性能指标分为两大 类:速 
度导向类算法与资源导向类算法。 

2.3 速度导向类算法 

为了在高速网络环境中能够达到线速数据包处理，研究 


类状态集(被同一输人字符所激活的状态集合称为有冲突状 
态集），这两类状态集分别映射到非确定型与确定型有穷自 
动机单元。该方法可以把 NFA 的49%以上的转移表存储到 
内存中，能节省43%的查找表与38%的触发器资源。 

2011年 ， Qi Y 等人提出了一种基于转移矩阵的压缩方 
案 [18] 。 Xf 冗余的转移矩阵进行了状态内 （inter state) 压缩和 
状态间 （intra state ) 压缩。分别使用了 Bitmap 压缩、状态分组 
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和状态合并技术，将 DFA 消耗的内存资源压缩了 90%以上。 

规整的转移表被精简之后不再规整，以至于访问一条转 
移边的时间不再是0(1)。因此精简转移表自动机类算法需 
要解决两个关键技术:1 ) 使所有转移边的访问时间达到一个 
固定的常数 时间; 2) 提高需要多个时钟周期访问的转移边的 
访问效率。一般的解决方法是采用流水线技术加速需要多个 
时钟周期访问的转移边的访问。 

2.4.2 共享模式子串 

大规模规则集中规则之间含有大量的公共模式子串，文 
献 [14, 19 - 20] 等通过共享正则表达式之间的公共模式子串 
减少 FPGA 实现正则表达式匹配的硬件资源开销。 

模式子串的共享可分为前缀共享、中缀共享和后缀共享。 
前缀共享是将公共前缀模块的输出分别作为各正则表达式剩 
余的后缀模块的输人。中缀共享和后缀共享最难实现， 
因为它的实现必须要记忆状态转移经过的路径，否则会造成 
某些模式串的假阳性 （false positive ) 判定。2006年 ， Lin C H 
等人 [14] 提出中缀、后缀的共享，他们通过一个解复用器 （ de ¬ 
multiplexer ) 记忆激活共享串模块的前缀路径，共享串模块的 
输出依解复用器决定激活哪一个后缀模块。在 Snort 规则集 
上测试表明 :该方 法平均节省了 48%的逻辑单元。但该体系 
结构存在两个约束（略），对不满足这两个约束的正则表达式 
不能实现中缀或后缀共享。 

正则表达式之间模式子串的共享节省了大量的硬件资. 
源，但会增加设计的复杂度与时延，且对含有复杂语法的公 1 
模式子串的有效共享仍然是一个难点。 

2.4.3 复杂语法实现 

目前国际上对于复杂语法的研究主要集中 1 
(constraint repetition ) 的高效实现。因为数量限定 ^ 

用暴力展开的方法，即将子正则表达式重复的串接 | 次，该方 
法将消耗大量的硬件资源，而人侵规则中含有大量限定 
符 的正则表达式（如表2 所示 ，数据来自文|^19, 21])， 因此 
数量限定符的高效实现有助于降低系统牛资源消耗。 

表 2 Snort 2.4/2. 8 所含数量限定符 ^ 规则数目 [19 ’ 21] 


数量限定符类型 

Snort 2.4 

Snort 2.8 

(regex) {n} 

)209 

370 

(regex) (n, } 

470 

520 

(regex) {n, m} 

2 

33 

合计 

681 

923 


2006年 ， Bispo J 等人利用 Xilinx SRL 16 移位寄存器存储 
多个状态较有效地实现了单个字符或字符组数量限定符 [19] 。 
2008年 ， Faezipour M 等人提出了一种基于 NFA 的新构造 
块 [22] ，它能有效处理任意形式的子表达式的数量限定符。构 
造块由正则表达式匹配单元、可配制计数器、计数器复位单元 
与子正则表达式匹配单元组成。其中计数器用于计算子正则 
表达式匹配的次数，通过配制计数器的参数，即可实现不同类 
型的数量限定符。实验结果表明在 Snort 2. 7规则集中该方 
法与传统的方法相比节省了 39%的逻辑资源。但该方法存 
在如下不足:1)需要提供一个额外的子正则表达式匹配电路 
来实现最小数量限 定符; 2) 当子正则表达式不是单个字符时 
将消耗更多的硬件 资源; 3) 不能处理带有数量限定符的相邻 
字符组的匹配模糊问题(字符组的匹配模糊问题是指当一个 




输人字符能被带有数量限定符的两个相邻字符组同时匹配 
时，不同的选择策略导致不同的匹配判定）。2010年 ， Long L 
H 等人 [21] 提出的新算法克服了前两点不足。2010年 ， Wang 
H 等人提出的 MIN - MAX 算法 [11] 有效解决了字符组数量限定 
符的匹配模糊问题。 

2.5 总结 

在实际应用中，研究人员根据实际的应用需求可将提髙 
速度类算法与节省硬件资源类算法的多种优化技术应用于同 
一系统。一方面，自动机匹配算法的“速度”与“面积”两个性 
能指标多为反比 关系; 另一方面，采用一些优化技术之后，可 
能将整个系统设计变得更复杂，一些原本的技术难点变得更 
难解决。因此如何在提高一个性能指标的同时又能做到尽量 
减小对另一个性能指标的影响,还应尽量避免提高系统设计 
的复杂性是优化算法的关键,也是此类算法设计的挑战。 

3总结与分析 > 

3.1 算法设计难点 AV 7 

基于 FPGA 的正则表配算法设计不仅要考虑规则 
语法的复杂性、网络特定要求，同时还要考虑 FPGA 自 
身的特性。 该类寞 难点具体有以下 几点： 

^ &法设 用性。目前大部分算法针对正则表达 
获得很好的匹配性能,但是在针对大规模规 
L 要_持所有规则语法时算法的匹配性能不是很理 
I 不实用。正则表达式规则的语法种类较多且差异很 
I 难设计出一种通用算法对每种语法都支持得很好。 

2) 高主频算法设计。随着用以描述人侵特征的规则集 
不断攀升，基于 FPGA 的正则表达式匹配引擎因实现更多的 
规则而使电路变得更复杂与庞大,这势必降低系统主频。而 
网络带宽在快速增长，需要更高主频的系统处理海量实时数 
据。 

3) 实时规则更新。网络人侵检测系统的规则需要实时 
更新，规则的添加、删除需要对自动机重新编译,并将新生成 
的位流重新下载至 FPGA , 这使得基于 FPGA 的自动机比基于 
软件实现的自动机更新更慢。如果规则集规模很大，这一更 
新过程将花费很长时间。 

3.2 分析与展望 

基于 FPGA 的正则表达式匹配研究才刚刚起步，具有广 
阔的发展前景，其未来的研究发展趋势包括以下几个 方向： 

1) 支持大规模规则集的高性能算法设计。未来基于人 
侵特征的规则集会变得更大，网络速率会更高。为了使有限 
的 FPGA 硬件资源能够支持(未来）更大规模的规则集，同时 
还要求更快的系统处理速率，因此势必研究一种消耗硬件资 
源更少、系统主频更高、可扩展性更强的新算法。 

2) 复杂语法的改进。目前的算法主要是针对一般语法， 
并没有太多针对某一特定语法设计高效的实现算法。针对复 
杂语法的改进是未来算法改进的一个 方向。 

3) 基于新硬件特性的算法设计。 FPGA 产品在不断改 
进、不断地推出新的硬件特性。若能充分利用硬件的新特性， 
可能会为设计带来更好的效果。如2010年，文献 [23] 利用 
Xilinx Virtex -5 拥有6输人的查找表 （ Look - Up - Table ， LUT ) 的 
新特性，将传统方法状态的一位有效方式编码 （ one-hot 
encoding ) 改为最多两位有效方式编码，用两个逻辑单元 
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(Logic Elements , LE ) 表示三个状态。实验证明该方法与一位 
有效方式状态编码设计相比，节省了 19%的逻辑单元，而两 
种设计方式的主频却完全一样。 FPGA 的嵌人式内存拥有访 
存快、双独立端口等诸多优势，同时新推出的 FPGA 的嵌人式 
内存容量在不断增加,近年来不少研究人员都在尝试利用这 
一优势，如文献 [8 -13] 等均充分利用了嵌人式内存。 

4) 基于 FPGA 的硬件虚拟化技术。在一些对于系统吞吐率 
要求不髙的特定应用环境下，通过硬件虚拟化技术运行多个不同 
应用的正则表达式匹配 引擎。 通过虚拟化技术提高硬件资源利 
用率与硬件的灵活性。文献 [24] 则对该方向进行了研究。 

4结语 

基于 FPGA 的正则表达式匹配算法研究是一个具有重要 
理论研究价值与广泛的实际应用背景的课题。近年来，基于 


grammable Gate Arrays. New York: ACM Press ， 2010:209 -217. 

[12] GANEGEDARA T, YANG Y E, PRASANNA V K. Automation 
framework for large-scale regular expression matching on FPGA 
[C] // FPL’10: Proceedings of the 2010 International Conference on 
Field Programmable Logic and Applications. Washington, DC: 
IEEE, 2010:50-55. 

[13] KANETA Y, YOSHIZAWA S, MINATO S. Dynamic reconfigurable 
bit-parallel architecture for large-scale regular expression matching 
[C] // FPL’10: Proceedings of the 2010 International Conference on 
Field Programmable Logic and Applications. Washington, DC: 
IEEE, 2010:21 -28. 

[14] UN C H, HUANG C T, JIANG C P, et al. Optimization of regular 
expression pattern matching circuits on FPGA[ C] // Proceedings of 
the Design, Automation and Test in Europe. Leuven: European De¬ 
sign and Automation Association, 2006:1 -6. 

[15] CHO Y H, NAVAB S, MANGIONE-SMITH W H. Specialized 


FPGA 的正则表达式匹配算法的研究尚处于起步阶段，许多 

关键的技术难点亟待解决。本文结合研究现状，对基于 

FPGA 的正则表达式匹配算法进行了分类总结概述，最后对 

研究的难点进行了简要的阐述，并展望了未来的研究方向。 
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Abstract: Existing string matching algorithms typically set the sliding window size as the pattern length . This 
paper presents a Linear DAWG Matching ( LDM ) algorithm , which divides the text into [ n / m ] overlapping windows 
of length 2 m -\. In the windows , the algorithm attempts at m positions in batches . It firstly searches pattern prefixes 
from middle to left with a reversed suffix automaton , shifts to next window directly when it fails , otherwise , scans 
the corresponding suffixes forward with a finite automaton . Theoretical analysis shows that LDM has optimal time 
complexities in the worst (0( m )), best (0( n / m )) and average cases (0( n (\ og a m )/ m )). Experimental comparison of 
LDM with the existing algorithms validates this theoretical claims of average case for searching long patterns . It 
further reveals that LDM is also efficient for searching short patterns on large alphabets . Thus , LDM algorithm not 
only suits for off-line pattern matching , but also fits in high-speed online pattern matching . 

Key words: suffix automaton ; finite automaton ; LDM (linear DAWG matching ) algorithm ; string matching ; 

complexity analysis 

摘要：现有的串匹配算法通常以模式长度作为滑动窗口大小.在窗口移动后，往往会丢弃掉一些已扫描正文 
的信息.提出了 LDM(linear DAWG matching ) 串匹配算法，该算法将正文分为 [«/ m ] 个相互重叠、大小为 2 m - 1 的 
扫描窗口 .在每个扫描窗口内，算法批量地尝试 m 个可能位置,首先使用反向后缀自动机从窗口中间位置向前扫 
描模式前缀;若成功，则再使用正向有限状态自动机从中间位置向后扫描剩余的模式后缀.分析证明, LDM 算法 
的最差、最好、平均时间复杂度分别达到了理论最好结果 :0 ⑻ ,0( n / m ),0(«( log a m )/ m ). 实际性能测试也验证了 
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平均时间复杂度最优这一理论结果.而且，对于在较大字母表下查找短模式的情况, LDM 算法速度在被测试算法 
中最快.总之, LDM 算法不但适合进行离线模式匹配,而且还特别适合需要进行在线高速匹配的应用. 

关键词： 后缀自动机;有限状态自 动机; LDM 算法; 串 匹配; 复杂度分析 

中图法分 类号： TP 301 文献标 识码: A 

在计算机科学领域，串匹配算法一直都是研究焦点之一.在拼写检查、语言翻译、数据压缩、搜索引擎、 

网络入侵检测、计算机病毒特征码匹配以及 DNA 序列匹配等应用中，都需要进行串匹配.串匹配就是在正文串 
中查找模式串的一个或所有出现. 

在本文中,模式串表示为 x = x 1 x 2 ... x „,， 长度为 m ; 正文串表示为长度为 n ; 字母表以 I 表示，大小为 
a . G 表示向下取整. 

现有的串匹配算法，通常是以模式长度 ™ 为扫描窗口大小，在窗口中使用不同的扫描策略来进行匹配 [1] .依 
据扫描策略的不同,串匹配算法可以粗略地分为以下几 大类： 

(1) 从前往后匹配模式前缀 . KMPP ] ,Shift Or [3] 等算法从前往后进行扫描，使用自动机记住已匹配模式前缀 
的正文内容,并依据这些内容来确定是否已经匹配成功.这类算法的最差时间复杂度都达到了理论最优结果 
00), 但是由于只能逐个字符进行扫描，它们的平均时间复杂度往往都较差. 

(2) 从后往前匹配模式后缀.为了提高对已匹配信息的利用率， BM [4] 算法及其各种变形 [5 _ 7] 在窗口中从后 
往前进行扫描，记住已匹配模式后缀的正文内容，并依据这些内容来进行窗口移动.虽然这类算法的最差时间复 
杂度为，但是由于所匹配的后缀在当前窗口后部，能够更好地增加窗口移动距离，使得算法实际上对正文 
中的很多字符都不必进行扫描，因此，它们的平均时间复杂度达到亚线性. 

(3) 从后往前匹配模式前缀.为了将当前扫描窗口中更多的有用信息挖掘出来, BDM [8] , RF [9] 等算法在从后 
往前进行扫描时,反向使用模式逆串的后缀自动机(又称为 directed acyclic word graph , 简称 DAWG ) [1(1 ^ 匹配模 
式的前缀，这样可以增大窗口移动的距离，从而获得更好的平均时间复杂度，达到理论最优结果 
O («( logom )/ m ) [ll] . 

本文提出一种新的串匹配算法，称为 LDM(linear DAWG matching ) 算法.该算法既有从前往后扫描的算法 
所具有的线性最差时间复杂度的优点，又有扫描模式后缀的算法所具有的亚线性平均时间复杂度.而且由于在 
每次尝试时都将当前尝试位置附近的所有有用信息都挖掘出来，使得每次移动时损失的信息量尽量小，更加有 
效地利用了已识别正文的最后部分.分析表明,该算法最差、最好时间复杂度分别达到了理论最优结果 
(900, 而且，平均时间复杂度也达到最优结果 OO ^ logomVm ). 实验结果也验证了这一点.而且在大字母表 
的情况下， LDM 算法优于现有算法,随着模式长度的增加，只有 RF 算法能够和 LDM 算法速度相接近. 

1算法预备 

1.1 算法思想描述 

考察在每次尝试开始时，正文中正在扫描的字符 y ,.， 它不但与其前面的 m -1 个字符 yi . m + i y ^ m + 2：. yi - i 有关系 
(BM 类算法正是依据这种思想在大小为 m 的窗口中使用从后向前扫描的方式)，而且还与其后的 m_l 个字符 
有关系 CKMP 类算法依据这种思想在大小为 m 的窗口中使用从前向后扫描的方式).这样，当前扫 
描的字符与其前后各 m -1 个字符构成了大小为 l +( m - l )+( w - l )=2 m-l 的窗口.在这个窗口中，首先使用后缀自 
动机从窗口中间位置反向扫描模式前缀,然后使用正向有限状态自动机从中间位置往后扫描相应的模式后缀， 
这样就能够完全将窗口中心位置附近与之有关的有用信息全部扫描出来，在窗口移动前查找出正文中包含窗 
口中心位置字符的所有模式出现，减小窗口移动时的信息损失. 

在算法中，分别使用了两类自动机:反向最小后缀自动机和正向有限状态自动机. 

1.2 最小后缀自动机 

一个串 x 的最小后缀自动机 SA(suffix automaton ), 记为& 4(； x ), 即识别串 x 的所有后缀的最小确定自动机. 
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如图 1 所示，该自动机可以接受串 baabbaa 的所有后缀:⑽力 


已经存在以线性复杂度构造 SA 的算法_，对长度为 m 的串: c , 构造时间为 0( m )， 且& 4( x ) 的大小(包括节点 
数与边数)为 O(mcr). 



Fig.l SA ( baabbaa ) Fig . 2 FFA ( aabbaab ) 

图 1 SA { baabbaa ) 图 2 FFA ( aabbaab ) 


1.3 有 限状态 自动机 

本文所用到的正向有限状态自动机 FFA(forward finite automata ) 实际上就是正向识别模式的一般有限状 
态自动机，只是在运行方式上有所不同.由于在反向后缀自动机运行结束时算法已经匹配了模式的一个(或多 
个)前缀，所以正向有限状态自动机运行时不是从传统的开始状态开始，而是从已匹配的最大前缀所对应的状态 
开始.开始状态集合中不包含传统的初始状态，这是因为_前一阶段识别的前缀为沾寸，不需要使用 FFA 进行扫 
描.在实现中，常常用已识别前缀的长度来表示状态.如图2所示，该自动机使用不同的开始状态1,2,3,4,5,6,7,分 
别可以接受串 aabbaab 的不同后缀:力 

FFA 的构造也是一个简单的问题，使用与 DFA 匹配算法 [1()] 相同的构造算法构造模式的 FFA , 其构造时间复 
杂度是 0( m + cr )， 空间复杂度是 0( ma ). 

2 LDM 串匹配算法 

本文算法主要使用 DAWG 来扫描正文，且除了与 BDM 算法一样达到平均时间复杂度最优以外，还达到了 
线性最差时间复杂度，因此称为 LDM 算法. 

2.1 LDM 算法 

算法初始化主要是引用已有算法来构造模式逆串■的后缀自动机&400,以及模式 x 的正向有限状态自动 
机.在介绍算法扫描部分之前，我们先引入以下定义. 

定义 1 . 本算法中，尝试位置集定义为正文中的一些特殊 位置: 伏》 2 |1众^[«加化尝试窗口定义为正文中以尝 
试位置为中心、大小为 2 m - l 的滑动窗口(除了第[«/»2]个窗口，它只有 m [«/ m ]+ m 个字符，可以简单地使用不 
属于2的符号 C 来填充补足 2 m - l 个符号，而不影响匹配结果.由于它对算法没有太大影响,以后将不再对它作特 
殊描述)，其中尝试位置字符及之前的 m -1 个字符定义为前窗口，尝试位置之后的 m -1 个字符定义为后窗口. 

这样，算法将正文串分为相互重叠的 [«/ m ] 个大小为 2 m - l 的窗口，每个窗口和其前后的窗口都分别有 m -1 
个字符相同，而尝试位置只在其所代表的尝试窗口中出现.算法依次对窗口 y (k - l)m+l ...y km ： .y (k+l)m - l 进行尝试，其 
中 A ： 从1到 卜 / m ]. 

在扫描窗口内，算法分为两个阶段.首先使用反向后缀自动机&400在前窗口中从尝试位置反向扫描模式 
前缀; 然后根据扫描结果决定是否使用正向有限状态自动机^烈00在后窗口中向后扫描剩余的模式后缀.算法 
使用 /, r 为正文扫描指针,/指示& 4( x 0 在前窗口中从后向前扫描的位置， r 则表示在后窗口中从前向后扫 
描的位置 U 分别表示&400和^没卜)的状态.另外，在反向扫描阶段，及还记录已匹配的最大后缀的长度.由于 
以已匹配前缀的长度作为状态，当反向扫描结束时，中保存的即为的开始状态.以 
乃左 - l)m+l.. -ykiif .y(ifc+l)m-l 为例： 

阶段1.如图3所示，使用& 4< y ) 从后往前扫描前窗口 y » +1 ... yfe „ ，直到& 4( x 0 没有动作.其中 ，衰 自动机状态 
为终态时，记录下一扫描位置即已匹配最大前缀的长度)到变量兄&400停止动作时，如果 i ?>0, 则 y km - R + l ... y km 
为算法在前窗口中扫描到的最大前缀，算法进入第2 阶段; 当及=0时，表示扫描到的最大前缀为算法可以直接 
向后跳跃,继续对下一个尝试窗口进行扫描. 
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阶段2.如图4所示，在后窗口 中,由状态 i ? 开始，使用 FE 4( x ) 从前往后扫描.由于从当前状态 

到达终态需要至少 m-R 次移动，而当前窗口中还有 m-r+l 个字符0^„ +) ■为下一要读字符)，当即 R<r) 
时，当前窗口中不再存在模式出现，结束扫描.其中，当自动机状态为终态时,输出当前扫描位置. 



m—\ 



m—\ 


^ _1 

1__ 




口 


口 





__________ rn 

r~j 






} } 

^ 1 

km 




Fig . 3 Searching backward for the pattern prefixes with SA(x r ), until no movement at a. Record the 
current position in R when a terminal state is reached 

图 3 使用& 4( x ") 从后向前查找模式前缀，直到在 a 处自动机没有动作，其中终态时记录当前位置到及 


y 



Fig . 4 Searching forward for the pattern suffixes with FFA(x), until no pattern exists in right 
window , output the position when the terminal state is reached 

图 4 使用 FaO ：) 从前向后查找模式前缀，直到确定当前窗口中没有其他模式串存在， 

其中遇到终态时输出当前位置 

算法的伪代码如图5所示.其中，各/ C ) 是反向后缀自动机 &40 O 的状态转移函数，表示在&400中从状态 g 


读取符号 C 到达的状态，若该状态不存在，贝 U 么 4 (^,C)= & S FFA (q ， C) 衰示 正向有限状态自动机的状态转移函数.为简 
洁起见，忽略了一些优化和边界检查代码. 

LDM (x=xix 2 _ . .x m ,y=y\y 2 .. .y n ) 

1. 

Preprocessing 

2. 

Build SA{x) and FFA(x) 

3. 

Search 

4. 

For k^l...[n/m] do 

5. 

L—0,/?—0 ， /—0，—0 

6. 

While L^sdo 

7. 

L*~ SsA(L,yicm-i) 

8. 

H+l 

9. 

If I is terminal then R*~l 

10. 

End of while 

11. 

If R=0 then continue 

12. 

While true do 

13. 

If/? is terminal then 

14. 

Output((A:-l )m+r) 

15. 

End of if 

16. 

r'—rfl 

17. 

If R<r then break 

18. 

R*-S FFA (R,yicm+r) 

19. 

End of while 

20. 

End of for 


Fig . 5 Pseudo-Code of the LDM algorithm 

图 5 LDM 算法伪代码 


2.2 一个匹配实例 


以在正文 y=abbabaabbaababbabbab 中查找模式的所有出现为例： 

算法初始化，构造如图1所示的&和如图2所示的 

在扫描阶段，算法初态为仏祕以必抑祕如&^祕以化匕其中^表示当前窗口位置,*^表示当前使用后缀自动 
机，状态&来扫描正文, Ft 表示当前使用正向有限状态自动机，状态 A ： 来扫描正文，^或^位置后的第1个字符为 
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当前读入字符.另外，带下划线表示该字符已扫描过. 

(1) 开始第1次窗口扫描，当前尝试位置为 lm =7. 

反向扫描阶段:初始化足 /， r 为0,使用后缀自动机似 ( x ) 反向 扫描： 

1 . ( abbabaSoabbaaba )... , L = SsA (0 9 a )=2 r .1=1 .2’ 是一个终态, i ?= l . 

2. ( abbabS2 ' aq _ bbaaba ) …, L = 3 sA ( T , a )=3.1=2.3 是 一个终态， i ?=2. 

3. ( abbaS ^ baabbaaba )... , L = Ssa (? , a )=4. l =3. 

4. 幽祕^^^〉...；=么4(4，0)=£■.反向扫描阶段结束. 

正向扫描阶段: F _ E 4( x ) 初始状态 i ?=2, 表明已识别长度为2的前缀，即似： 

5. ( abb abaaF obbaaba ) ..., r =\ . R = S FFA (2, b )=3. 

6. (abb abaabF Abaabcd ... , r =2 . R = M )=4. 

7. ( abbabaabbFAaaba ).. ., r =3 . i ?=^4(4, a )=5. 

8. ( abbabaabbaF ^ aba ).. ., r =4. i ?=^7^(5, a )=6. 

9. ( abbqbqqbbaaF 6 ba )..., r =5. R =5 FFA (6, b )= l .1 为终态，表明已匹配到一个模式串，输出位置 6. 

10. ( abbabaabbaabFna )..., r =6. R = 5 ffa ( J ^)= 1 < r , 正向扫描结束. 

(2) 开始第2次窗口扫描，当前尝试位置为 2 m =14. 

反向扫描阶段:初始化足 AM 为0,使用后缀自动机似 ( x ) 反向 扫描： 

11. … ( bbaabaS 0 bbabbab ), L = Ss A ( Q , b )=\.1=1. 

12. ... ( bbaabSiabbabbab ), L = SsA {\, a )=2. l =2. 

13. ... ( bbaaS 2 bqbbabbab ), L = S S A (2, b )= e . 反向扫描阶段结束.且 R =0, 无 须进行正向扫描，全部扫描结束. 

这样， LDM 算法一共读取13个正文字符,在位置6识别出模式串的一个出现. 

3复杂度分析 

LDM 算法用到了两个自动机& 4( x 0 和它们的空间复杂度都是所以 LDM 算法的空间复杂度 
为 0( am ). 而算法的预处理主要就是构造两个自动机&400和^7^00,它们的构造时间都是 0( m ), 所以 LDM 算 
法的预处理时间为 0( m ). 

以下证明在扫描时间上， LDM 算法的时间复杂度在各个方面都达到了理论最佳结果. 

定理 1. LDM 算法最差时间复杂度为0(»). 

证明:首先，算法只进行 [«/ m ] 次 尝试; 其次，在尝试窗口中，由于窗口大小为 2 m - l ， 且依据算法,最多对每个位 
置进行1次扫描，也就是说,算法最多进行 (2 m - l )[«/ m ；^2«-«/ m <2« 次正文字符扫描，即, LDM 算法最差时间复杂 
度为0 ⑻. □ 

在 a " 中查找 a m 的所有出现就达到了次正文字符扫描的上界. 

定理 2. LDM 算法最优时间复杂度为 0( n / m ). 

证明: 当每次在尝试窗口中，对尝试位置字符进行扫描都无下动作的时候,只进行1次扫描，于是将总共进行 
[»/ m ] 次扫描.即， LDM 算法最优时间复杂度为 0( n / m ). □ 

在 a " 中查找 Z /" 的所有出现就达到了 [«/ m ] 次正文字符扫描的下界. 

串匹配算法平均时间复杂度通常是在等概率模型下讨论的，即假设字母表中的所有字符在正文和模式中 
出现的概率相等. 

定理 3. 在等概率模型下, LDM 算法平均时间复杂度为 O ( n ( lo go m )/ m ). 

证明 :首先 ，计算在每次尝试时，在尝试窗口中扫描正文字符数的平 均值： 

设 rf =[21 0 go m ], 假设满足条件 m > 成除了0=2且这种情况之外都满足这个条件)，分以下情况 讨论： 

(1) 在第1阶段从尝试位置反向扫描时，扫描超过个字符.由于 x 的长度为的子串有 m - d + l 个,而长度 
为 d 的串总数为 （/个 ，则这种情况发生的概率为而这种情况下最坏的结果为扫描了整个窗口的 
2 m - 1个字符. 
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(2) 在第1阶段从尝试位置反向扫描时，未超过个字符，但扫描到了至少1个 x 的前缀，且在第2阶段扫描 
结束时，两个阶段扫描的字符总数超过1这种情况的概率为 1/ c /， 而且最多扫描 m + d -1 个字符. 

(3) 其他情况.包括第1阶段扫描字符数不超过 丈且未 扫描到 x 的前缀，以及两个阶段扫描字符总数不超过 
rf . 总之,两种情况下扫描的字符数都不超过 rf . 这种情况发生的概率为 

综合以上情况，在一次尝试中，扫描的字符数期望值不 超过： 


m — d + 1 


:(2 m - l ) + - 


< (in + d — 1)+1 _ 


m-d + 1 


\xd 


⑴ 


整理， 得到: 


d + 


一 3jfid — 1/2 + ci 一 1 


( 2 ) 


因为 “二^^^^/夂^匕“/^所以括号内算式的值小于某个常数 C . 因此，尝试窗口内扫描字符数 
的平均值为0问 =0( lo go m ). 又由于算法只进行 [«/ m ] 次尝试，因此算法的平均时间复杂度为0 ㈣ logo «)/ m ), 达到 


最优. 


□ 


4实验结果 


为了检测 LDM 算法离线匹配性能(即平均时间复杂度)，将 LDM 算法与现有的其他3类算法中具有代表性 
的算法进行测试:从前往后扫描前缀的 KMP 、 从后往前扫描后缀的 BM 、 从后往前扫描前缀的 RF . 测试中分别 
对大小为2,4,8,16,32,64,128和256的字母表进行实验.在每个字母表中，分别随机生成了长度为 10 M 的正文. 
分别将长度从2~64的模式在每个正文中进行匹配.对每个长度，随机生成了 5 000个模式.实验条件为 Linux 主 
机, PIII , 双 CPU 主频 933 MHz , 内存 1 G 算法都使用 C 语言实现,并使用相同接口调用.实验中打开 gcc 编译器 
-03( 最优化 ) 开关,为了计算每个算法的平均运行时间，还打开了 -pg 开关.测试结果按照模式长度分类统计处理, 
得到结果如图6所示.图中横轴为模式长度，纵轴为每模式每兆正文平均匹配时间,单位为 s . 

实验结果显示，在大字母表下 (32 以上), LDM 算法最快.运行时间最快的是 KMP ，8%; 然后是 BM 的 55 %;RF 
的64%.随着模式长度的增加, RF 算法达到了 LDM 算法相同的运行时间，这是因为它们的平均时间复杂度相同. 

在中字母表下 (8 和 16)， LDM 算法与 RF 算法运行时间基本相同，都是最快.随着模式长度的增加，它们的运 
行时间与 KMP 算法和 BM 算法的运行时间差距加大，与 KMP 算法的运行时间相比，由70%减少到13%;与 BM 
算法相比，由82%减少到44%. 

在小字母表 (2 和 4) 下, LDM 算法比 RF 算法稍慢，但随着模式长度的增加,两者的差距逐渐减少，而与 KMP 
算法和 BM 算法的差距扩大，运行时间最快的是 KMP ，12% ; 然后是 BM 的40%. 

总之,对于在大字母表下查找较短模式的情况， LDM 算法在测试算法中最快.在各种字母表大小的情况下, 
随着模式长度的增加， LDM 算法与 RF 算法运行时间越来越接近，而比 KMP 和 BM 算法运行时间的优势逐渐加 
大，这与 LDM 与 RF 算法平均时间复杂度同为最优的理论分析结果相一致. 

5结束语 


本文提出了使用相互重叠的大窗口来扫描正文的思想.在窗口中，先从中间位置往前扫描模式前缀，然后再 
扫描相应的模式后缀.这样，算法并行地扫描 m 个模式出现位置，最大化地挖掘出当前扫描位置附近的有用正文 
信息，使得在每次窗口移动时丢失的信息达到最小，提高了算法效率，使得最差、最好和平均时间复杂度都达到 
了最优结果以及 0(«( l 0 goMVw ). 性能测试实验也验证了平均时间复杂度最优这一理论结果,而且在 
查找较短模式时, LDM 算法在大字母表情况下是最快的丄 DM 算法的平均时间复杂度最优这一特性表明它适 
合进行离线模式匹配的应用，而且由于其最差时间复杂度也最优，因此它还特别适合需要进行在线高速匹配(不 
能存在瞬时耗时过长的尖峰现象)的应用，例如高速网络下入侵检测系统. 
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Alphabet size 2 



Alphabet size 4 



6 10 14 18 22 26 30 34 38 42 46 50 54 58 62 2 6 10 14 18 22 26 30 34 38 42 46 50 54 58 62 


Alphabet size 8 



Alphabet size 16 



Alphabet size 32 Alphabet size 64 




Alphabet size 128 


Alphabet size 256 




- KMP - BM . RF - LDM 


Fig .6 Experimental results in running time of the string matching algorithms on random texts of size 
10 Mb and 5 000 rand patterns length from 2 to 64 on alphabets of size 2,4, 8, 16, 32, 64, 128 and 256 

图 6 在大小分别为 2,4,8,16,32,64,128 和 256 的字母表上,对长度分别为 10 Mb 的随机正文与长度 
从2~64的随机模式各5 000个进行匹配的实验结果 
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最近出现了直接使用 Bit-Parallelism 技术模拟的不确定后缀自动机来匹配模式前缀，进行串匹配的 BNDM 
算法 [12] ，我们已将 Bit-Parallelism 技术与本文思想结合 [13] ，继续作深入的研究.后缀自动机在多模式匹配中也有 
良好的应用 [14] .同样，本文思想也可以扩展到多模式匹配的问题中，我们将继续进行深入的研究，以获得各项时 
间复杂度最优 [15] 的多模式匹配算法.本文算法还可以推广到模糊匹配中 [16] .另外，本文算法在各窗口内的操作 
是完全独立的，因此，加以简单的改进就可以应用到并行串匹配中. 

致谢 在此，我们向对本文的工作给予支持的罗浩博士生以及对本文提出有益建议的审稿专家们表示感谢. 
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Abstract: Software overhead in interconnection network communication has currently become the bottleneck of a 
cluster system . To reduce it , a user-level communication software UMPS based on real-time OS RTLinux is 
designed and implemented , which is comfortable with VIA . A new concept of semi-polling driven is presented . 
With the semi-polling driven mechanism , the interrupts frequency is lowered and the processing performance for 
short message is significantly ameliorated . By means of the address translation and buffer managing algorithm 
based on the resource-mapping graph , applications bypass OS and interact with network interface directly using 
asynchronous DMA . So the overhead and latency in communication are efficiently reduced . Experimental results 
indicate that the throughputs of UMPS for 64 byte and 1500 byte messages are 394 Mbps and 895 Mbps 
respectively , and the performance of UMPS surpasses that of other mechanisms . 

Key words: RTLinux ; asynchronous DMA ; latency ; semi-polling driven ; interrupt 

摘要： 网络通信软件的处理开销已成为影响机群系统的性能瓶颈，为了提高机群系统的网络性能，在实时操作 
系统 RTLinux 下，设计并实现了一个符合 VIA 规范的用户级通信软件 UMPS , 提出了半轮询驱动的概念，利用半轮询 
驱动机制降低了系统中断频率，明显提高了短报文的处理能力.通过更为高效的地址翻译和基于资源映射图的缓冲 
区管理算法，应用程序旁路操作系统，依靠异步 DMA 直接与通信设备进行交互,有效地降低了网络通信的延迟与开 
销.通过性能的分析比较表明, UMPS 接收 64 byte 与 1500 byte 的报文时呑吐量分别达到 394 Mbps 和 895 Mbps , 与 
现有的报文传输机制相比, UMPS 的性能有了较为显著的提高. 
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中图法分 类号： TP 316 文献标 识码: A 

随着计算机网络的迅猛发展以及一些高速度、基于交换的诸如 Fibre Channel , High-Performance Parallel 
Interface ( Hippi ) 和 Asynchronous Transfer Mode ( ATM ) 等网络技术的出现，基于网络并行计算的机群系统以其高 
效率、低消耗等优点受到越来越多的重视 [1] .在机群系统中，各节点通过相互之间的消息传递来实现数据的交换 
和同步，共同协作完成统一的任务，节点间通信速度的高低成为影响计算性能的关键因素.虽然高速局域网络技 
术的迅速提高，提供了高带宽、低差错的物理链路，使得通信系统的性能得到了大幅度的提高，已经达到 Gb 级带 
宽，微秒级延迟的水平.但相对于计算元件，通信系统的发展依然滞后，例如，在每秒 G 比特的网络流量下，单节点 
机最大可以处理的数据量却仅为 110 Mbps 左右，这种原始带宽和被传输到应用层的最大吞吐量之间巨大差异 
的存在，造成了用户在升级网络设备的同时却没有得到相应的计算性能的提高 [2] .其主要原因在于，常用的操作 
系统如 Linux 等，出于通用性的考虑，在协议栈的实现上效率往往很低，使得在关键传输路径上软件开销占整个 
报文传递延迟的绝大多数.由此可见,局域网中的瓶颈从原来的物理信道转移到系统软件协议处理上 [3] .设法降 
低通信开销对于充分利用最新计算资源、解决挑战性的技术问题都有重要意义. 

由此，本文提出了在实时操作系统 RTLinux 下，基于半轮询驱动的用户级报文传输机制一 
UMPS ( user-level message passing based on semi-polling driven ), 该传输机制提高了报文获取进程的优先级，降低 
了中断的频率，并旁路操作系统(去除报文传输关键路径中操作系统的干预)，从而极大地提高了系统报文的峰 
值吞吐量，有效地减少了网络通信的延迟. 

本文第1节分析了相关的研究工作及系统的构建目标.第2节描述系统的整体结构与实现.第3节详细讨 
论了所采用的各项优化技术.实验测试结果以及性能分析将在第4节给出.最后是总结. 

1相关的工作与目标 

在机群系统中，通信速度的高低是影响计算性能的关键因素,如何利用现有高速网络的成熟技术，充分发挥 
底层网络的物理带宽，成为机群能否实现高效机间通信的首要问题. 

一直以来，端节点的报文获取大多采用基于传统 TCP / IP 协议栈的函数库 Libpcap [4] ，但操作系统中低效的网 
络协议构架导致报文传输过程中存在频繁的系统调用、数据拷贝以及系统上下文切换开销，因此，其低下的通 
信性能无法适应大规模网络环境的需求. 

基于内核可加载模块的 KLMP [5] 绕过系统的 TCP / IP 协议栈中协议层和套接字层，减少了系统调用和内存 
拷贝的次数,但是其本质的用户区 一一 内核分级结构并没有完全将操作系统从报文传输的关键路径中去除，性 
能瓶颈依然存在. 

为了避免报文在主机传递路径中的冗余 开销％ 消除操作系统的性能瓶颈 ， VMMC [7] , U - Net / MM [8] 和 
MMUC [9] 采用了用户区一一设备扁平结构的用户级网络通信构架，完全旁路操作系统.出于对通用性的考 
虑, VMMC 和 U - Net / MM 通过网卡缓存一部分动态锁定的用户缓冲区物理地址，并借助操作系统内核虚存管理 
系统完成缓存未命中时的额外操作，在增加了网卡固件复杂度的同时还产生了由频繁的锁定内存和请求调页 
操作带来的巨额 开销; 而 MMUC . 则通过通信区在系统核心与用户态之间高效地进行数据交换，实现了真正的零 
拷贝，但其纯中断驱动的报文接收机制使得短报文的处理性能效果不佳. 

为了避免短报文处理过程中频繁中断所产生的延迟, PM 系统 [1()] 采用轮询来驱动报文的接收，机制虽然简 
单,但是容易造成较低报文输入速率下 CPU 的巨额开销. 

综合考虑上述不足,报文传输机制 UMPS 具有以上框架所不具备的优点:1)可扩展的、模块化的系统架 
构; 2) 符合虚拟接口结构 (virtual interface architecture , 简称 VIA ) 规范，平衡 VIA 各层次实现的功能，缩短通信关 
键路径，实现通信性能的最 大化; 3) 基于状态的调度方式在中断与轮询之间作了很好的平衡，降低系统产生中 
断的频率，显著提高了短报文的处理 性能; 4) 简单、高效的地址翻译机制，消除了频繁的锁定内存和请求调页操 
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作，减少内存地址虚实转换开销，降低网卡固件复 杂度; 5) 基于资源映射图的缓冲区管理算法，提供了一个轻量 
级的报文缓存机制，在降低存储开销的同时提高了内存空间的利用率. 

我们要达到的目标是： 

• 降低系统的中断 频率； 

•低延迟、低开销和高带宽的短报文处理 性能； 

• 高效的地址翻译及缓冲区管理机制. 

2 UMPS 的结构与实现 


User 

mode 


Application 


User Agent 


Kernel mode 


n 


Kernel Agent 


NIC Agent 


Semi- 

Polling 

driven 


Hardware 


Network adapter 


Control flow 




Fig . 1 Function structure of UMPS 
图 1 UMPS 的功能结构图 


UMPS 的总体框架如图 1 所示，主要包括3个组 
件: User Agent ( UA),Kernel Agent ( KA ) 和 NIC Agent ( NA ). 
其中 UA 位于系统的用户态，是一系列用户层函数库，为 
应用程序提供直接访问网络设备的编程 接口; 其他两部 
分位于系统核心态,内核逻辑设备 KA 维护用户空间的虚 
拟地址一一物理地址转换和缓冲区 管理; 专门编写的驱 
动程序 NA 作为软件和硬件之间的抽象层，负责网卡硬件 
的初始化、与 KA 交互获取 DMA 操作所需的物理地址， 
以及在半轮询机制的控制下利用异步 DMA 进行高效的 
用户级报文传输. 

表1为 UA 所提供的 API 函数,通过调用下列 API , 
应用程序得以灵活、方便地访问底层通信网络,进行实 
时、高效的数据传输. 


Table 1 Description of application programming interface 

表 1 应用编程接口描述 


API 


UMP S_Initialize 

UMPS_Release 
UMPS:Loop 
UMPS= GetDataBlock 
UMPS_ FreeDataBlock 
UMPS= SendBuff 
UMPS~ ShowState 


_Description_ 

Register network interface, complete initialization before communication, and allocate resource 
including buffer area, port etc 

After communication, release all the resources by this function 

Take out data repeatedly from buffer and send them to Callback function for processing 

Get a packet from user buffer area 

Free the data buffer that has been processed 

Send packets by this function 

Return information of current states to user, e.g. number of receiving packets_ 


UMPS 包括初始化和报文传输两个阶段，与 VIA 规范基本 相符; 3个代理之间层次分明，各自拥有完善的独 


立接口，保证了 UMPS 的模块化和高可扩 展性; UA 提供的编程接口屏蔽了底层硬件的实现细节，使得 UMPS 框 


架可以直接在一些通用硬件上工作，具有良好的平台无关性. 


3 UMPS 的性能优化技术 


3.1 基于状态的半轮询驱动机制 

中断的代价是昂贵的, Pentium Pro 的 CPU 派发中断到内核中断处理程序大约需要 10 ns , 在网络数据流量巨 
大的情况下，在中断级别上处理网络请求的操作系统将自陷在中断响应这一环节，产生所谓的 receive 
li V el 0 C k [ 11] ，从而导致报文吞吐率的急剧下降.若带宽占用率相同，在全部传输短报文(长度<128 byte ) 的极端情况 
下，由于中断最为频繁，系统的峰值处理能力将达到最低限度. 

为了解决中断驱动模式带来的负面影响, PM 系统采用完全轮询驱动的模式，有效地提高了短报文的处理 
能力，但是一旦报文频率远小于轮询频率，过多的轮询就会加重 CPU 的负载，在资源的利用率上，这种方法不是 
最优的. 
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在低报文频率情况下，远大于报文频率的轮询操作加重 CPU 负载; 反之，中断产生的消息处理开销影响系 
统的性能.单独使用轮询或中断都不是改善报文吞吐率的有效途径.通过多次实验，我们发现，在网络负载较低 
的情况下，报文到达时间是不可预测的,此时利用中断处理机制能够很好地避免由于报文到达的随机性而产生 
的 延迟; 而在网络负载较高时，报文的输入速率基本达到-个稳定状态，这时轮询机制就能够充分发挥作用，保 
证系统的高吞吐率.根据上述结论，一种比较好的实现方法就是采用半轮询驱动进行传输控制. 

图2是根据半轮询驱动机制得到的有限状态机模型. 


I Interrupt disabling 

^initialization state 
/=interrupt driven 
P=polling driven 
T^sliding-window size 
i?—received packets 
^message buffer empty 
M=out of memory 

Fig .2 The state machine of semi-polling driven 

图 2 半轮询驱动有限状态机模型 

(1) 第1个报文到达，系统由开中断状态下的初始状态 S 转变为关中断状态下轮询机制 P , 并通过可配置的 
滑动窗口尺寸 r 控制每次轮询所接收的报文个数及； 

(2) 若 i ?> r , 说明报文输入率接近或达到系统饱和状态，则继续保持轮询驱动模式； 

(3) 反之，为避免轮询开销,重新打开中断，直到下一个报文到达,并重复(4)(2)(3); 

(4) 开中断状态/下，接收到一个新报文，则重新改变为关中断状态下轮询机制 P ; 

(5) 如接收队列未满，而内存资源耗尽，则重新回到初始状态又以释放所有 资源； 

(6) 同 (5). 

半轮询驱动机制的主体(即轮询操作 ) 在内核的软中断过程中被调用，而软中断则通过 NA 的中断处理函数 
激活.这样，在低报文频率情况下，半轮询驱动基本上蜕化为传统的中断机制来处理大部分报文，以降低延迟.由 
此可见，该机制将中断与轮询紧凑结合，保证了在系统高负载情况下使用轮询操作,而在低负载情况下使用中断 
模式，在充分发挥二者优点的同时避免了各自的缺陷，在中断延迟与系统峰值吞吐量之间做到了很好的平衡.另 
一方面，定制的实时操作系统 RTLinux 内核保证了轮询进程的高优先级别，确保了对网卡轮询的精确性,提高了 
网卡接收报文的速度.测试数据表明，采用半轮询机制后，减少中断次数的效果非常明显，带宽性能被极大地 
提高. 

3.2 静态快表地址翻译技术 

在基于零拷贝思想的用户级报文传输机制中，网络接口 ( NI ) 的 DMA 引擎需直接与用户缓冲区进行交互.然 
而，异步 DMA 方式只能对锁定的物理地址操作，因此必须解决用于 DMA 传输的物理地址和用户缓冲区的虚拟 
地址之间的翻译问题. 

为此，文献 [12] 提出 NI 和 CPU 共享内核页表 TLB 的方法，但是这种不安全的操作使得这种方式并不可 
靠; VMMC 和 U - Net/MM 利用 NI 缓存一部分动态锁定的用户缓冲区地址,并借助操作系统内核虚存管理系统 
完成缓存未命中时的额外操作，但每个报文传输都包括页面锁定/解锁操作,这些代价昂贵的原语操作导致报文 
传输带宽降低. 

在 UMPS 中，通过查找 Linux 内核中的三级页表，逻辑设备 KA 获得用户缓冲区中每个虚拟页面的物理地 
址，并将该页面锁定于内存.转换后的物理地址缓存在一个静态地址快表 ATB(address translation buffer ) 中，所有 
用于报文传输的用户缓冲区物理地址被 ATB 完全覆盖 .ATB 快表和事先被一次锁定的内存页面组成一套高效 





838 


Journal of Software 软件学报 2004,15(6) 


的地址翻译机制. 

静态 ATB 快表的技术优势主要体现在： 

① 实现简单,相关开销小； 

② 在内核空间实现，禁止用户层访问，安全 性高； 

③ 避免了频繁的内存页面锁定和缺页异常处理操作，提高了性能. 

3.3 基于资源映射图的缓冲区管理算法 

用户缓冲区用来缓存网络报文，是连接网络层界面和用户层应用的桥梁.传统的缓冲区动态管理算法出于 
对通用性的考虑，在每次报文传输时都进行 malloc / free 操作，这无疑会影响系统性能.为此，在 UMPS 中我们设计 
了基于资源映射图的缓冲区管理算法 ( MG ). 所谓资源映射图是一系列用于描述用户缓冲区的二元组的集合.算 
法的基本思想，是在用户空间预先分配一大块静态共享内存池，逻辑上划分为 2 K 的存储单元 ( unit ), 每个 Unit 的 
相对偏移量和其所存放的数据报文的长度位于相应的二元组中，通过资源映射图统一管理存储单 
元,有效地避免了 malloc / free 操作 . DMA 控制器通过索引资源映射图获得当前可用存储单元，并与之交互，从而 
来完成以太帧格式的报文传输. 

为了支持并发访问并消除在共用同一存储单元时的互斥锁操作，在实现中采用4个环形队列来描述资源 
映射图:发送队列 txBusyQ 、 接收队列 rxBusyQ 、 发送空闲队列 txFreeQ 和接收空闲队列 rxFreeQ . txBusyQ 中保 
存着待发送数据的二 元组; 而 rxBusyQ 的每一个二元组则对应着一个接收到的报文,作为优化过程，短报文会直 
接存于其中. 

资源映射图是控制数据收发走向的关键，它们通过 Linux 的系统调用 mmap 由核心空间映射至用户进程空 
间,为两者所共有，这就保证了无论是核心程序还是应用程序,都可以方便地将其视为自身存储空间的一部分而 
进行操作. 

MG 算法避免了每次报文传输时都进行的 malloc / free 操作以及在共用同一存储单元时的互斥锁操作，改善 
了主机与网卡间 DMA 相关操作的性能，最大程度地提高了用户缓冲区的空间利用率，从而提供了一个轻量级 
报文缓存机制，降低了存储开销,实现了全双工的通信方式. 

3.4 报文传输过程 

通过 UA 提供的虚拟网络接口，应用进程对用户缓冲区进行存取操作，以完成报文的发送与接收.图3为 
UMPS 数据传输过程，从中可以看出数据报文的走向及其层次关系. 



Fig .3 Communication procedure of UMPS 
图 3 UMPS 的数据传输过程 

结合环形队列的二元组和 ATB 快表，用户缓冲区_前可用存储单元的物理地址和虚拟地址^^可以通过 
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下面的地址翻译公式计算得到(其中， 2 K 是存储单元长度 〆 ac 是队列当前可用二元组，是 ATB 快表的首地 
址， Zm / 是用户缓冲区的首地址 ：)： 

A p = base [ desc^offset »1 '+( desc」wffset & 1) X 2 K (1) 

Av = buf + desc—offset X 2 K (2) 

通过半轮询驱动的传输控制，当新的网络数据报文到达时， NA 从 rxFreeQ 队列首部获取一个空闲存储单元 
的二元组，依据公式1获取已被锁定的空闲存储单元的物理地址，将接收到的网络以太帧通过 DMA 通道直 
接送到主机内存中后， NA 将刚刚被填充数据的存储单元的二元组压入 rxBusyQ 队列尾部.应用进程需要处 
理报文时，首先从 rxBusyQ 队列首部获取已填充数据的存储单元的二元组，然后根据公式 (2) 得到虚拟地址办索 
引相应的存储单元中的数据.应用进程处理完报文后将刚刚处理过的存储单元二元组压入 rxFreeQ 队列尾部. 

报文发送流程与接收类似，应用进程在需要发送报文时，从 txFreeQ 队列首部获取一个空闲存储单元的 q 
元组，依据公式 (2) 得到该存储单元的虚拟地址 Wv ， 将欲发送的报文存放其中并将对应二元组压入 txBusyQ 对列 
尾部 . NA 从 txBusyQ 队列首部获取欲发送报文的二元组，由公式⑴计算戽并启动 DMA 进行报文发送 . DMA 传 
输结束后， NA 将己发送完毕的存储单元的二元组压入 txFreeQ 队列尾部. 

从报文的传输过程不难看出, UMPS 无须加锁/解锁 DMA 页面，分配/释放内存的操作也通过将二元组挂接 
在不同的资源映射图队列，从而得到简单的解决. 

4实验结果分析 

为了对 UMPS 的性能作进一步的分析，我们对所实现的实例进行了性能测试.性能测试是在曙光服务器 
( CPU 是 PIV 2.0 GHZX 2, 内存是 4 G ), 使用千兆快速以太网卡进行的.采取光纤互联的方式与专用硬件发包机 
SmartBits -6000( B ) 相联 • 

4.1 中 断频率 


在完全输入短报文 (64 byte 和128 byte 的 IP 包)的情 
况下，我们针对半轮询驱动机制，在控制中断次数的性能方 
面进行了实验.在不同的速率和报文长度下，每次发送100 
000个报文，经过多次测试求取平均值后得到中断产生次数 
的结果，如图4所示.从实际的测量数据可以看出，随着报文 
输入速率的增加，中断次数不断减少.这与我们的设计相符 
合:在 半轮询驱动机制下,中断的次数由报文输入速率决定， 
高负载采用轮询机制保证吞吐量，反之蜕化为中断机制节 
约 CPU 开销.而传统的每包中断机制中断次数仅与输入报 
文数量有关，在同样的情况下,每包中断机制将产生100 000 
次中断，相比之下，半轮询驱动机制减少中断次数的效果非 
常明显，这为低延迟、低开销和高带宽的短报文处理能力提 
供了有效保证. 

4.2 带宽与延迟 



Fig . 4 Number of interrupts 

图 4 半轮询驱动机制下中断次数 


为了测试引入半轮询驱动机制的 UMPS 的通信性能，我们选取用户级通信框架中比较典型的 MMUC 、 基 
于内核可加载模块的处]\«>和传统的1^^39作为主要比较对象.安装了实时操作系统101^111^-3.1(在1^£11^ 
7.3 上升级安装)，峰值吞吐量与接收延迟的测试结果如图5所示.图5中的接收延迟测试结果是用所测大小的数 
据报文向接收主机发送，直到其达到饱和状态后求出接收每个报文占用的平均时间得到的.可以看出，需要在内 
核与应用层之间拷贝数据的 KLMP 与 Libpcap 的接收延迟较 UMPS 和 MMUC 有明显的增加.另-•方面 , UMPS 
的峰值吞吐量接近线速，在报文长度大于约256 byte 时，由于报文频率降低，半轮询驱动逐渐蜕化为中断机制，因 
此与 MMUC 的测试结果曲线基本重叠，相差不大，但远远高于 KLMP 与 Libpcap . 随着报文长度的增加, UMPS 的 
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□ UMPS DMMUC DKLMP OLibpcap 


600 


□ UMPS BMMUC aKLMP aLibpcap 


536 


60 


64 Message size (byte) 128 


64 byte 


Fig .6 Throughput and CPU utilization for short message 
图 6 短报文吞吐量和 CPU 空闲率 


峰值处理带宽不断提高，在处理大小为1 500 byte 的 IP 数据报文时，达到极限值895 Mbps , 接近 1 G ， 发挥了网卡 
性能的89.5%,在流量上的性能提高是非常明显的.其主要原因是丄 ibpcap 采用传统的 TCP / IP 协议栈，多次数据 
拷贝、系统调用和复杂的缓冲管理，产生极大系统 开销; KLMP 虽然绕过协议栈中协议层和套接字层，但并非真 
正的用户级传输，操作系统的干预没有完全去除,性能瓶颈依然 存在; 而 UMPS 则由于高效的地址翻译及缓冲区 
管理机制，应用程序与网络接口间可以直接传输报文，操作系统被完全旁路，实现了通信性能的最大化. 




64 128 256 512 1024 1500 64 128 256 512 1024 1500 

Message size (byte) Message size (byte) 

Fig .5 Bandwidth and latency for different platforms 

图 5 不同平台下的带宽与延迟 

图6为4种平台短报文处理能力的比较以及在处理64 byte 短报文时的 CPU 空闲率.在 CPU 利用率 
上， UMPS 不是最优的，其原因有多方面，主要是图中的数据是在64 byte 的短报文输入达到饱和状态时测得的平 
均值，此时的网络负载相当高,而由于半轮询机制产生很少的中断，为保证较高的系统吞吐率，大部分 CPU 时间 
都被用来对大量的数据报文进行轮询工作.在峰值吞吐量方面，对比 Libpcap ， KLMP 和 MMUC 基于半轮询驱动 
的 UMPS 性能有很大幅度的提高.从图中可以看出，在64 byte 短报文情况下， UMPS 的峰值吞吐量为394 Mb / s , 
而 MMUC 最大可达300 Mb / s , 仅为 UMPS 的76.1%,其主要原因是，在 MMUC 中频繁的中断使得大部分时间浪 
费在上下文切换以及中断现场保护上， UMPS 由于基于状态的半轮询机制以及基于资源映射图的缓冲区管理 
算法等多项优化技术，使得中断的频率和缓冲区管理的开销大幅度下降，充分发挥了网卡的硬件性能以及报文 
传递的实时性.因此，通过对4种平台的测试，表明 UMPS 在短报文的性能改善方面效果是最佳的.（％) 
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5结论 

本文通过对典型的报文传输框架进行分析比较，设计并实现更为优化的报文传输机制一一 UMPS , 由于引 
入基于状态半轮询驱动机制、高效的地址翻译和基于资源描述图的缓冲区管理算法, UMPS 充分挖掘了网卡的 
硬件性能，实现了一个灵活、高效的网络接口，简化了报文传递中的处理环节，极大地消除了系统的通信瓶颈，增 
强了报文的实时处理能力.实验数据表明, UMPS 有效地降低了系统的中断频率，并具有低延迟、低开销和高带 
宽的短报文处理能力.目前，虽然 UMPS 的峰值处理能力很高，但仍需要进一步完善和扩展.下一步我们将考虑采 
用用户级的调度来增加 CPU 的空闲率，以更好地支持上层应用软件. 
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Abstract: This paper presents a bottom-up approach to implement the automatic and scientific transform of access 
control policies in the migration . First , the problem of mining security labels optimally is described formally , and it 
is then proved to be NP - complete . Next , an approximate optimization algorithm based on hierarchical clustering and 
genetic algorithm is presented , which decomposes the problem into two parts : category partition and secret level 
assignation . Finally , experimental results show that the algorithm is effective in finding an optimal solution . The 
proposed approach can be applied to migration projects in hierarchy protection in information security . 

Key words: multilevel security ; security label ; optimal mining ; computational complexity ; hierarchical 
clustering algorithm ; genetic algorithm 

摘要： 提出了一种自底向上的方法来实现系统迁移过程中自动和科学的访问控制策略转换.首先对多级安全中 
敏感标记最优化挖掘问题作了形式化描述,证明了该问题是 NP 完全问题，不存在多项式时间算法.然后，在此基础上 
提出了基于层次聚类和遗传算法的近似最优化挖掘算法，将该问题分解为范畴划分和密级分配两个阶段.最后，实验 
结果表明，算法能够有效地挖掘出最优的敏感标记.该方法可以应用于等级保护工作中的系统迁移工程. 
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等级保护是我国信息安全保障工作的一项基本制度和根本方法.全国重要信息系统的评定等级工作已基 
本完成，目前的主要任务是系统安全整改建设，这标志着我国等级保护工作已进入全面实施阶段.然而现实的情 
况是，很多重要电子政务系统、电子商务系统，由于其本身的重要程度被要求达到3级或以上级别.且3级以上 
信息系统的应用安全、主机安全和网络安全要求必须实现强制访问控制策略，其核心是多级安全 ( multi-level 
security , 简称 MLS ) 策略.然而，这些已存在系统的访问控制策略由于历史等原因并不是多级安全策略(常见的是 
自主访问控制).因此，如何进行策略转换并保证策略转换的可行性，是一个迫切需要解决的问题. 

强制访问控制策略要求对主体、客体指定敏感标记，这些敏感标记是等级分类和非等级类别的组合.对于 
多级安全来说，敏感标记是密级和范畴集的组合.目前,对策略转换主要采用自顶向底 ( top - down ) 的方法.该方法 
由系统用户、系统开发者和安全专家一起对信息系统工作流程及场景、已有授权策略库进行分析，根据专家经 
验和分析的结果手动为主体和客体分配标记.这种人工分配标记的方式对于小型系统也许可行,但当面对有数 
以千计的用户、数以万计的资源、百万级的授权规模的大系统时，其工作_1大，难以保证科学性，甚至可能由 
于严重破坏原有系统访问控制逻辑而根本无法实现策略的转换，使原有系统无法实现向多级安全的迁移. 

本文提出了一种自底向上 ( bottom - up ) 的方法来实现系统迁移过程中访问控制策略的自动转换.该方法的 
基本思想是，利用数据挖掘的方法从原有的授权策略库中发现而不是重新定义符合多级安全规则的模式，找出 
最优化的实体标记,我们称该方法为多级安全中敏感标记的最优化挖掘方法.本文分析和证明了敏感标记最优 
化挖掘的复杂度，提出了有效的挖掘算法来求解敏感标记中的范畴和密级的优化问题，并通过模拟和真实数据 
的实验验证了该方法的良好的性能.另外，利用该方法实现策略自动转换,从而避免了手工转换的诸多弊病, 
最小化了定级系统策略转化的代价.因此，该\法对我国的等级保护工作的推进具有一定的理论和实践意义. 

1 相关工作 

多级安全的经典模型是 BLP 保密性模型 [1 气它是许多信息系统安全评测标准的制定依据和理论基础.为了 
防止机密信息的泄漏, BLP 模型规定主体不能读访问安全级高于自己的客体，不能写访问安全低于自己的客体, 
从而实现信息向高$全级单向流动.为了提高系统的可用性, BLP 模型引入可信实体概念,使高安全级可信主体 
能够通过一 g 范围的^全级调整写访问低安全级客体.目前，有些研究对可信实体处理做了深入分析，试图解决 
可信主体安 幸隐患 ，例如，文献 [3] 提出了离散标记序列多级安全模型.与 BLP 的可信主体级别范•围模型相比，该 
模型在多级安全的策略范围内实现了可信主体特权最小化.由于多级安全模型只是一个保密性模型，不具有完 
整性模型的优点，也有些文献研究保密性模型与完整性模型的融合问题，以增强 BLP 模型的安^性.例如，文献 
[4] 的安全模型使敏感标记同时包含机密级和完整级，同时，可信访问控制检查员可动态调整客体机密级和完整 
级，以保证系统可用性.文献 [5] 研究了在主客体动态变化的访问控制系统中,敏感标记中级别升降对系统安全带 
来的影响.它使用了一种新的逻辑编程语言对这种系统进行建模分析，寻找信息流动脆弱性或证明其安全性.概 
括来说，已有的研究基本上偏重于对多级安全模型本身的研究和改进，很少见到如何从旧系统向多级安全系统 
迁移方法方面的研究.例如，很少见到如何从已有的授权策略库中发现符合多级安全策略模式的研究. 

在授权策略挖掘领域，近年来比较活跃的是对角色挖掘问题 (role mining problem , 简称 RMP ) 的研究 [6_11] .角 
色挖掘问题被定义为从己存在的授权策略中发现最优的角色集合，角色集合可以完备地、正确地、有效地表达 
已有授权关系 [6 , 8] .目前，已有一些有效的角色挖掘方法，如子集枚举方法 [6] 、图优化方法 [7] 、布尔矩阵分解方法 [9] 
和概率统计方法 [1<1] 等等，也有些文献 [11] 从语义角度对角色挖掘质量进行了评价.这里的角色与多级安全中的范 
畴有一定相似之处，它们都体现了分组的概念，但是也有明显的区别 :角色 可反映某个职能岗位拥有的权限集 
合，而范畴大多表示标记应用的类别和领域.授权策略挖掘的另一个方向是噪声处理，以发现和纠正授权误配和 
漏配.文献 [12] 研究了用关联规则挖掘算法 Apriori 检测授权策略的错误，它通过分析授权的频繁模式发现异常 
的授权规则.文献 [10] 用极大关系模型 IRM 去检测错误的授权，它通过对多种集合同时聚类来发现关联关系. 
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2 问题定义及复杂度分析 
2.1 BLP 模型介绍 

为了便于描述问题，我们先介绍 BLP 模型的基本概念.参照文献 [1], 设 S 是系统主体的集合,0是客体集合 ， P 
是权限集合 { r , a , w , e }, 分别表示读权限(>■)、写权限⑷、读/写权限 ( w ) 和空权限 ( e ). 敏感标记集合 L={(c,k)\ceC, 
kdQ , 密级 C 是大小可以比较的线性序列，范畴集欠中的范畴是非等级的应用领域或类别. 

定义 1. 标记支配标记 (〆，), 当且仅当 c ' 彡 c , 且记作 (cAHcW). 

用和 f 0 ..0—L 表示主体和客体的标记函数. 

规则 1. 简单安全 条件: 可以读 0, 当且仅当 / 办 >^(0). 

规则 2. *- 属性: 可以写 0, 当 且仅当 ./ 0 (0)>/ 办 ). 

规则 3. 自主安全特 性:状 态的每一次存取操作都是由存取矩阵所限定的. 

简单安全条件通常称为“不向上读”， * -属性通常称为“不向下写&另外，主体的访问需要受到自主安全特性 
的制约.在实际应用中我们发现,敏感标记中范畴的层次包含关系较难获!语义支持.例如，一个保密系统中范 
畴集为{人事，财务，业务}，密级为{公开，秘密，机密}，标记人事部门普通用户^为[秘密, ■[人 事}]，标记财务部门普 
通用户&为[秘密，{财 务几标 记主管 A 为[机密，{人事，财务，业务 a 现有资 源 01 是人事和财务部门普通用户均可 
读访问的共享资源，资源 o 2 是人事兼财务管理级别以1的用户才能读/写访问的保密资源.在这种情况下，难以 
恰当地标记 01 和 o 2 以满足需求.若标 记 01 为[公■[人事，财务几则■^和&均无法读访问 Oi ，即无法实现“下 读”; 
若标记 o 2 为[秘密,■[人事，财务几则&只能读访问 o 2 , 无法实现“上写”，而&和&却可写访问 o 2 . 

因此，在不改变多级安全规则的前提下，为了提高原有授权系统转换到多级安全系统时的可用性，本文对敏 
感标记做出约束,限制标记的范畴集只包括一个范畴，以简化标记之间的支配关系,从而更关注范畴内受密级支 
配的信息单向流动.对于公共资源，我们可以通过数据挖掘的方法将它们单独聚类成一个新范畴.同时，考虑主 
体的多角色多领域访问情况，允许主体有多个标记.主体能否访问某个客体取决于主体是否存在某个标记，该标 
记和客体的标记的关系是否满足多级安全规则要求的支配关系. 

2.2 敏感标记的最优化挖掘问题 

由戈大多数授权最终都可以转化为访问控制矩阵形式，因此，本文主要研究如何从访问控制$阵向多级安 
全策略转换的问题.访问控制矩阵的行表示主体，列表示客体，矩阵中的元素表示相应_体访问相应客体的权 
限.本文中，我们用访问控制矩阵距离作为授权策略间差异的指标. 

定义 2( 访问控制矩阵距离) .设 P ={ w , e } 代表权限 集合; 访问控制矩阵 』=(%) mx „ ，其 中馬 eP ; 访问控制矩 

阵5=(\)_其中,〜 eP . M -5||= 〜）称为访问控制矩阵 J 和 S 之间的距离，其中，访问权限距离函数 


在定义2中，我们将所有的距离差异看作是一样的，当 x 夺时距离差异都是 1. 我们也可以根据实际情况给 
出函数艰]其他定义.例如，可以根据实际需要定义权限 w 和 e 的距离大于 w 和 a 的距离.根据规则 1 和规则 2, 
可以推导出多级安全系统的访问控制矩阵.这里，我们约束每 f 标记中只有1个范畴，并允许主体多标记. 

定义 3( 多级安全系统导出的访问控制矩阵). 对宁一个有 m 个主体和《个客体的多级安全系统，标记集合 
记为 i ={( AA ：)| ceC ； A ： eA ：}; 所有主体的标记记为向里；?=0 1 ,/ 1 ? 2 ，...方„,) 7 '，其中,故(=1,它是为第;' 个主体分配的标记 
元组;所有客体的标记记为向量其中,它是为第 y 个客体分配的标记.由多级安全系统 
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导出的访问控制矩阵 M 定义为，其中，:^ =< 


w , 彐/ e ls t ,l = lOj 
a , 彐 /e Is^l -< hj 
r , 彐 / e ls t ,l >- hj 
e ， 其他 


在上述两个定义基础上，我们给出如下的敏感标记的最优化挖掘问题的形式化描述： 

定义 4( 敏感标记的最优化挖掘问题 , security label optimal mining problem , 简称 SLOMP ). 给定一个有 m 

个主体、 《 个客体的授权系统，已存在访问控制矩阵为正整数正整数求标记集合 
Z ={( c ， A :)| eeC ， A : e ^：，| C | a ，|^：| a }， 所有主体标记产你以仏…^“:^所有客体标记 9=(! 0 士 2 ,...,!0„)'使得多级安 
全系统(1,/7，的导出的访问控制矩阵与 J 之间的距离最小，即求 argmin \\ A - pq T || . 

L ， p，q 

2.3 SLOMP 计算复杂度分析 


为了研究 SLOMP 的计算复杂性，我们将求最优解的 SLOMP 表述为如下判 问题： 

定义 5( SLOMP 的判定版本).给定一个有 m 个主体、《个客体的授权系统,已有访问控制矩阵是 WeP mx "， 
正整数•?<»!+«，正整数成 min ( m ,«) ，松0•判定是否存在多级安全系统 ( i , p ,< 7 ), i ={( c 刘 ceC , fce 欠 ,| C | 彡 ■，阅 心},所 
有主体标记 p =( H ..., D 7 ', 所有客体标记？ = (/ 0 1 ,/ 02 ,...,/ 0 „) 7 ',使得||』_网 7 '||矣戌问题记作 dSLOMP ( m , n , s , t ^ l , S ). 
下面，我们用归约的方法分析 rf 见 OMP(» W ,M j 的复杂性.先看一个 NP 完全问题 [13 ’ 14] ,问题描述如下上 
定义 6( 离散基划分问题 , discrete basis partition problem , 简称 DBPP ). 给定有限集合 [/, [/的 一个子集集合 
汉正整数;判定是否存在 [/的 一个子集集合5,5是[/的 •- 个划分，且 |5|= A , 使得 

^a( h - b ) = X min I hA (^ s ) I ^ V, 

h^H S ^ B 

其中 , LAS = | Jj ,/ i /4( u 5) =|/; u ( u 5)|/| hn ( uS )\ ，记作 DBPP ( U , H , A ,, i ]). 

seS 

定理 1. dSLOMP 是 NP 完全问题. 

证明 :先证明 DBPP ~ pSLOMP . 设有 DBPP 的一个实例 Z )([/,//, 木功.构造 dSLOMP 实例如下，令 
授权系统中客体个数客体集合仏加办…凡}对应 £»([/, //,乂,?7)中集合主体个数 m =| C |, 

£>( u , nj ,_/ n 的 丑 ={ n ..九 } 对应各个主体能读/写访问的客体集合,即访问控制』=(%)_= j w ’构造 

\ e , Uj ^ h t 

SLOMP 实伊然可在多项式时间内完成. 

事实上，因为3中访问权限只有 w 和 e 两种，这意味着主体和客体要么不在$ —范畴中(权限为 e), 要么在同 
一范畴中且密级相同(权限为 w ). 不失一般性，我们可假设实例中密级个数为1,即所有主客体密 
级相等.主体能否读写访问客体取决于主体是否存在一个标记，该标记与客体标记相等.实例 况 等价 
于 * S'(m,H^4，l， 纟，办继续构造该实例，令/=又^=?7.若实例 <5'0,«,1,4^,^)存在解,记为0^，?),则其范畴集 K={ki,k 2 ,..., 
心}.若则令欠=汍烏，...,^ 1 ，...太}^ +1 ，...太是虚设的范畴,并无实|示意义 ; 取实例5([/,//,/1,/7)中一个子集集 
合 BH..M 与 K 对应,当且仅当 『(Zoubk.Joy 中 bj 的范畴是竑取实例 £»([/,//,；U) 中一个子集 
集合 <5'={5^ 2 ，...，■?„}与 /K/hAyz ，...,/、) 7 " 对应，且仅- /■?,. 中包含范畴显然 p-p/|| 矣戎则有 

Xl h ^ iusi ) I 矣5 = 7；,则 5' 即是要求的 5，< S ' 是要求的次反之，若实例 £»([/,//,； U ) 存在解，因为5 和兄 <5和 p 的一 
1=1 

—对应关系，而且乞 | \^：S = rj ，则即，实例；7)求解转化为求解实例 W ). 因 

/ =i 

此， DBPP ~ P SLOMP , 即 SLOMP 是 NP 难的. 

SLOMPeNP 是显然的，给笔 SLOMP 实例和一个解 ( i , P ,?)， 验证算法求 M - p / ll 矣挪]计算时间 
为即在多项式时间内完成验证，即 SLOMPeNP , 因此 SLOMPeNPC . 定理1得证. □ 

由于 SLOMP 问题是 NP 完全问题，我们考虑该问题的近似最优解方法.我们分解该问题,首先划分范畴，并 
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确定主、客体所属范畴;然后在各个范畴内为主、客体分配密级，这些子问题的合解是 SLOMP 问题的解.范畴 
的最优划分和分配以及密级的最优分配算法将在第3节和第4节中探讨. 

3范畴最优划分和分配 

3.1 范畴挖掘问题的数学模型 

范畴反映了安全应用的类别或领域.若主体属于某个范畴，则通常他会对范畴内的大多数客体具有某种访 
问权限若主体不属于某个范畴，则对该范畴内的客体无任何访问权限 ( e ). 因此，在范畴划分问题中，可以 
主要区分无权限和其他权限.此时，访问控制矩阵可以转换为布尔型矩阵，即对于权限 e , 其对应的矩阵中元素取 
值为0;对于权限 w , r , +其对应的矩阵中元素取值为 1. 为了便于描述和解决范畴划分问题，我们给出如下 定义： 
定义 7( 布尔型矩阵乘法). 给定布尔型矩阵 5 e {0, l } <7<； V 4 和5的乘法记作 』®5= C , 其中, 

Ce{0,ir xt Sc"+ = S(a,.,A\). 

J /=1 J 

我们用布尔型矩阵 MCSX ),„ xi 表示主体*5■与范畴欠的关系矩阵中元素表示相应行的主体是否被分配相 
应列的范畴.同样地，我们用布尔型矩阵表示范畴足与客体0的关系欠0,矩阵中元素表示相应行的范 
畴是否包含相应列的客体.在定义7下, MCSX )® M 0 S ： O ) 反映了主体和客体是否共同属于某个范畴的情况. 

定义 8( 布尔型向量距离). 对于两个维布尔型向臺 v，we {0,1 匕定义它们之间的距离为 

d 

l|v-w||=[|vrM|. 

i=\ 

定义 9(； 范畴的最优化挖掘问题). 给定主体 (: 记为对客体 (记 为 0) 的布尔型访问控制矩阵 MCSO ), 总0,寻 
找范畴 集欠、 主体与范畴的关系 < SX 、 范畴写客体的关系欠0,使得 || MCSX )® M 0 f ： O )- MCSO )|| 彡在并最小化阅. 

对于矩阵如果搜索范畴分配的每一个状态, M 状态数为人0状态数为矩阵乘法时间 
为0(»认 2 «)，求解范畴的最优化挖掘问题的计算复杂度为其计算量非常巨大.下面，我们提出一种基 
于层次聚类的范畴挖掘算法，使求解该问题可在多项式时间内完成. 

3.2 基于层次聚类的范畴挖掘算法 

在应>用系统中，同部门或岗位的用户通常会访问相同的资源，紧密相关的资源通常会被一个用户以相同权 
限访问.基于这种分析，我们首先对访问控制矩阵进行 R - 型聚类分析，将客体划分成类即 范畴; 然后再为用户分 
配范畴.聚类是无监督的，主要依据访问控制矩阵各元素之间的相似性或距离进行分邊在范畴划分问题中，用 
户根据经验或具备具体应用系统的背景知识，通常能够确定范畴数目的大致范围.所以，可在限定范畴个数范围 
条件下寻找质量最好的聚类.为了通过扫描一遍数据集一次性地构造出所有合理的划分组合，我们采用层次聚 
类算法 [15] ，并通过在自底向上层次式的族合并过程中评价聚类质量的方法来提高计算效率. 

适合分类数据的类间距离计算方法有最短距离法和最长距离法.在馬次聚类中，最短距离法由于在选择要 
合并的簇时对大簇有偏好,最终得到的分类的大小相差 悬殊; 而按最长距离法得到的各个类的大小相对均勻.因 
此，本文选择按最长距离法计算类间距离，即类 C ,., C X 之间的距离 d ( C n C K ) = m a x xsq y£CK || x-y || . 

在聚类质量度量方面，评价指标有 Xiet - Beni 指标 [16] 、IGP _ [17] . 例如, Xiet - Beni 指标评价一个“好”的聚类原 
则是“簇内紧密，簇间尽可能分离”.在范畴挖掘中，我们主要4虑两方面 :一是 范畴划分与分配后与原访问控制矩 
阵的一 致性; 二是范畴个数对管理和安全带来的影响.通常兔畴个数增加，分配关系就会复杂，管理代价也会增 
高，安全性就会降低.因此，本文给出基¥者的线性组合的评价指标，记为 0( C ), 其中 , C 代表范畴 .0 C ) 的定义 
如下： 

Q ( Q = f [ M ( SK ), M ( KO ), M ( SO ),\ K \, j 8)=\\ M ( SK )® M ( KO )- M ( SO )\\/ mn +/3-\ K \/ m + n . 

其中,为权重因子，用予 f 衡3：者在取值范围上的差异.指标 0 C ) 越小，聚类质量越高. 

在定义定义9以及聚类廣量评价函数 0( C ) 的基础上，我们给出如下基于层次聚类的范畴挖掘 算法： 
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算法 1. 基于层次聚类的范畴挖掘算法. 

输入:访问控制矩阵 M ( SO)e {0,1广",1 勺彡阅汾 <«,芦 
输出:最优的范畴个数 k \ M ( SK \ M ( KO \ 

初始时，每个客体 0,. 独自成一个簇，簇集合 C "={{ 0 l },{ o 2 },...,{ o „}} W » 个元素;令 e *=~； 

根据 MCSO ) 计算出所有客体与客体距离矩阵 D ( O ); 

for i = n ,..., s +\ do // 自底向上层次聚类 

Select ( c p , c q ) = argmin d { c p , c q ); // 客体间距离等于域奶)相应列间距离 

Cp,c q ^C l ,c p ^c q 

C - x = C -{ c f p } - {<} f - 1 

If // 分析聚类质量 

Construct M { KO f ) from C 卜 1 ={ e b C2 , 

Construct M ( SK f ) from M { KO f \ M ( SO ); // 依据是主体是否可访问范畴内半数以上客体 

Q { C ^)= AM { SK '), M { KO '), M { SO '), i -\, p )- 

If 0( C M )<f M ( SK 、= M ( SKy , M ( K 0、= M ( K 0 y ， g *=0( C , ^ 1 ); End if 

End if 
End for 

算法复杂度分析.算法初始化时,计算所有客体与客体间距离，计算时间为 0(« 2 m ). 主循环有次迭代，第 z ' 
次迭代包括从 n - i + l 个簇中合并距离最近的两个簇和#价聚类质量两个环节次迭代中，前一环节计算时间 
为- ■?)), 后一环节求解聚类质量计算时不超过印 2 ),算法可以在多项式时间内完成. 

4密级最优分配 
4.1 密级挖掘的数学模型 

对于 SLOMP 问题，给定』 eP ™ x "，通过第3节中给出的范畴挖掘算法，确定 MCSr ) 和 M ^ STO ) 后，我们可将 J 分 
成一系列无交集的子访问控制矩阵，这些子访问控制矩阵是范畴内主体对客体的访问控制矩阵.此时 , SLOMP 
问题就转化为针对每个子访问控制矩阵，求相应的主客体密级的最佳分配问题. 

定义 10( 密级的最优化挖掘问题). 己知范畴 JT 包含 m 个主体、《个客体叉内访问控制矩阵为 AeP " ,x '\ 
杉0.求正整数 k ^ m + nJC 内主体的密级向量/^(^，吻，…,％) 1 "，其中，正整数 cs ^ k ' JC 内客体密级 q =( coi , co 2 ,..., 
co ,,) 7 ", 其中，正整数■彡 A ：, 使得 M - p / ll 彡《并最小化无，其中,若 CS^COjM X , y = W ; 若 CS[<COjM x !：/ = a ; 若 

cSi )~ cOj,M Xy = r . 

现实应用中，从便于管理角度考虑会限定密级数目，若系统有 m 个主体、《个客体，密级数目限定为&密级 
分配的搜索状态空间仍会达到因此，需要一种有效算法，能够在指定密级数目前提下实现最优的密级分配. 

4.2 基于遗传算法的密级挖掘算法 

我们使用遗传算法求解密级分配问题.遗传算法用于< 很多复杂的搜索优化问题.遗传算法首先将产生候 
选解决方案的种群，然后通过自然选择使这些解决方案进化，从而使得不好的解决方案趋于被淘汰，好的解决方 
案存活并继续繁殖.不断重复这个过程，就得到了最优的解.基于遗传算法的密级挖掘算法的描述 如下： 

(1) 用染色体表示密级分配.遗传算法中对问题的解以编码形式呈现 ，一 个解对应一条染色体.编码方式有 
二进制、整数、实数和非数值编码等.这里，我们将每个实体分配的密级看成染色体上的基因，这样，一个染色体 
将代表了对密级分配问题的一个解.为了更好地适应密级类型，算法中的编码方式采用整数表示. 

(2) 种群初始化.算法需要一个初始种群作为初始解集合.初始种群通过随机方式产生，其产生的质量通常 
会对算法搜索效率和能否产生全请最优解产生大的影响.为了保证初始种群的多样性，定 义第/ 个基因位上的 
基因熵 [18] £>_砂(;')=-[=|^(7)108 2 ^3(7),其中,为')是初始种群中在第/基因位取值为的基因所占比例， 
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[ CU - 1 ] 是基因池，对应密级取值空间.设定阈值 0 ，若不能满足 log 2 ⑷-£>你 0 # 0 ')< 6 >,则将所占比例最高的一个基 
因替换为所占比例最低的基因.重复该过程，直至该位基因熵满足上述不等式.这里，取值 0= O .31 og 点初始 种群的 
规模可针对应用实例规模通过实验获得，若数目太小，则容易陷入局部最 优解; 若数目太大，则计算复杂度又 
较高. 

(3) 适应度函数和选择方法.适应度函数反映了个体的适应能力，适应度函数值的大小决定某些个体是繁 
殖还是消亡.设范畴内访问控制矩阵 A „ x „ ，染色体 6 表示对全部主、客体的一种密级分配方法，通过多级安全规 
则，我们可得到相应的访问控制矩阵 < x „ .染色体适应度函数定义为染色体选择方法采用 
轮盘赌选择 (roulettete wheel selection ) 结合最优个体保存方法，文献 [19] 证明，二者结合的方法可使进化收敛到 
全局最优解.在密级分配问题中，从代种群力 J 中轮盘赌选择当代个体匕成为下一代成员父代的概率 

.当得到新一代种群后，将老一代中最优个体也直接加又其中，淘汰适应度值最小的个 
体.这里，实现轮盘赌的方法是计算 各个& 的轮盘刻度为■?汍）=/汍)/1^ 1 /0^_随机产生 (0,1) 之间的一个刻 
度值，时，若成知则&即为选中的个体. 

(4) 交叉.交叉是指两个父代个体的部分结构加以替换^组而生成新个体的操作.常用的交叉算子包括单 
点交叉、二点交叉、均匀交叉等.在密级分配问题中，主客体对_到染色体的位置并无前后次序要求，因此我们 
采用均勻交叉方法，即两个相同配对个体的每个基因都以相同的概率进行交换，从而形成两个新个体. 

(5) 变异.变异用于对个体的编码串产生随机的小变化，即以很小概率选择从群体中选出一些染色体，随机 
选择某些基因位，改变其值，取值范围 [ 0 ,/ t - l ], 对应密级取值空间.若变异概率太大，则会导致搜索产生 振荡; 若变 
异概率太小，则容易得到局部最优解.变异概率的选择可针对应用实例规模，通过实验获得. 

( 6 ) 终止条件.在指定遗传代数后中止遗传算法，并检查种群中的最优的染色体，如果没有得到满意的解决 
方案，则遗传算法重新启动. 

算法复杂度分析.假设范畴内访问控制矩阵是 A „ x „ ，群体规模为 !，迭代次数为 〖，则上述过程中，初始化种群 
的时间为 0 (/( m +»)) ; 每 r - 轮迭代中，计算个体适应度的时间为计算交叉和变异的时间为 0 (咖+«)).因此, 
总的计算适应度时间 0{ ltmn ). 

5实验与性能分析 

5.1 实验方法和评价指标 

我们通过实验评测来分析和验证本文提出的算法性能.实验采用人工合成数据和实际数据两种数据源，前 
者能够较为全面地反映算法性能，后者能够反映算法解决实际场景中问题的应变能力.敏感标记算法实现形式 
是 VsualC ++ 6 . 0 控制台程序，包括数据预处理、范畴划分、密级分配、性能古几个过程，时间计量精度为 ms . 
实验硬件环境是 Intel ® Pentium ® processor 1.73 G ,2 G 内存，软件环境是 Microsoft Windows Server 2003 sp 2. 

我们给出的算法评价指标包括:范畴挖掘时间 KMT 、 密级挖掘时间 CMT 、 算法总的执行时间 TT 、 范畴 
挖掘准确率 KAR 、 密级挖掘准确率 CAR 、 算法总的准确率 TAR . 评价指标的定义如 

假设访问控制矩阵将』转化成的有权限(读、读/写)和无权限(空权限)的布尔型矩阵记为 
设范畴挖掘得到的主体与范畴关系的布尔矩阵为5,得到的范畴与客体关系矩阵为 C , 则范畴挖掘准确率 
尺 =||5® Ov 4'||/ mn . 设共挖掘到 A 个范畴，范畴 Z 内有 •?, •个主体、^个客体，通过执行密级分配算法确定主、客体 
在该范畴内的密级，基于多级安全规则得到范畴?'内访问控制矩阵 A ., 将它与』中相应主体对客体的权限比较, 
统计不同的个数记为 M , 则密级挖掘准确率 C ^=( l / 幻根据敏感标记挖掘算法得到的主、客体 
标记，可推出其对应的访问控制 尽则算 法总的准确率 TAR =\\ E - A \\ lmn . 

5.2 人工合成数据评测 

这里,我们首先随机产生完全符合多级安全策略的授权策略;然后逐步加入噪音，直至授权策略数据完全随 
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Noise rate (%) 

Fig . 1 Algorithm performance for data with noise 

图 i 数据有噪音情况下算法性能 


机化,以此来探讨算法的挖掘能力.实际授权系统中的授权策略情况大部分应处于两者之间. 

(1) 无噪音数据.无噪音数据产生办法如下 :首先 指定主体个数 m 、 客体个数》、范畴个数 h 密级个数 C ; 
然后基于集合 {0,1} 随机生成主体与范畴的关系矩阵 MCST ) mxjt 和范畴与客体的关系矩阵接着对这 k 
个范畴内的主客体基于集合 { o ， i ,2,.. ./}随 机标记出密级，这样就得 a 了多级安全 策略; 最后，将其导出的访问控 
制矩阵作为算法求解的问题.在不同和 c 情况下的算法性能见表1.算法估计的范畴范围记为估计的 
密级记为 c e ，得到的最佳范畴个数记为 K 出于分析准确率考虑，我们将层次聚类权重 因子; 3设定的值较低，以降 
低管理复杂性对挖掘质量影响的权重.表1的结果是在/?=1、染色体个数/=100、遗传代数/=1500、交叉概率 
凡=0.8、突变概率/^=0.05下获得的. 


Table 1 Results of algorithm performance for data without noise 

表 i 数据无噪音情况下算法性能结果 


m 

n 

k 

c 

kzone 

C e 

k ， 

KMT (s) 

CMT (s) 

TT (s) 

KAR (%) 

CAR (%) 

TAR (%) 

50 

100 

4 

3 

[2,4] 

3 

4 

0.157 

13.850 

14.007 

100 

100 

100 





[6,6] 

5 

6 

2.568 

48.905 

51.473 

100 

99.01 

99.98 

100 

200 

6 


[6,6] 

4 

6 

2.561 

49.522 

52.113 

100 

94.59 

97.21 


[3,5] 

5 

5 

2.595 

53.843 

56.438 

95.74 

91.92 

93.03 





「 3,51 

4 

5 

2.637 

54.432 

57.069 

93.57 

87.91 

90.09 





[6,6] 

5 

6 

0.730 

49.601 

50.331 

100 

98.82 

99.25 

200 

100 

6 


[6,6] 

4 

6 

0.730 

49.336 

50.066 

100 

94.53 

97.23 


[3,5] 

5 

5 

0.728 

50.259 

50.987 

95.20 

90.47 

92.78 





「 3,51 

4 

5 

0.724 

51.427 

52.151 

95.22 

89.85 

91.86 

400 

400 

10 

5 

[10 10] 

5 

10 

104 

389 

493 

100 

98.22 

99.24 

400 

400 

20 

5 

[20 20] 

5 

20 

117 

525 

642 

100 

98.01 

99.01 

500 

600 

15 

5 

[15 一 15] 

5 

15 

420 

782 

1 202 

100 

97.32 

98.56 


表1表明，对无噪音数据进行挖掘，如果范畴个数和密级个数已知，则当算法正确地设置了范畴范围和密级 
个数时，算法可基本正确地逆向求解出原来的主、客体标记.在上述实验中，算法均找到了完全正确的范畴划分. 
而且，如果指定足够的染色体个数和遗传代数，密级分配也会收敛到完全正确的解.若算法设置的范畴个数范围 
未能包含正确的范畴个数或设置的密级个数小于正确的密级个数，则算法不会收敛到正确解;然而，如果差距不 
大，从表1可以看出，正_率仍达到90%以上.由于范畴划分的结果对随后的密级分配有直接影响,范畴个数范围 
设置是否合适，较密级个数设置是否合适对 TAR 的影响更大. 

在计算时间方面，表1的结果说明,当主、客体数目增大时，计算时间迅速增长 . KMT 受客体影响较大，这主 
要是因为层次聚类算法计算时间和客体数目成平方关系而造成的 . CMT 与主、客体总的数目成正比例关系.同 
时, CMT 受范畴个数影响也较大，这是由于每个范畴内都要独立进行密级分配的原因. 

(2) 有噪音数据.在无噪音数据中加入噪音的办法如下 :针对 多级安全系统导出的访问控制矩阵 A „ x „ ，若噪 
音比例为则在 A mxn 中随机选择 P noise XmXn 个元素，其值随机修改为4种权限之_ •.图1显示了在 m=l00, 
n=200,k=6,c=5,j3=l,l=l50,t=2000,p c =0.S,p m =0.05 情况下，噪音对挖掘准确率的影响. 



(％} 312B230V 
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Test serial number 

Fig .2 Parameters adjustment influence on algorithm performance for data with noise 

图 2 数据有噪音情况下，参数调整对算法性能的影响 

如果•个授权系统通过本算法分析评估，发现迁移到多级安全系统出错率较高，则说明其包含的符合严格 
BLP 策略的模式较少.随着改进的多级安全模型的提出和标准化，相信这种情况下系统迀移仍将会可行.例如，扩 
展 BLP 模型 [1 _ 3] 允许可信主体可以违背*-属性，这是通过_ 定 范围内安全级调整来进行的.图3显示了在限定不 
同密级合法范围情况下，解符合扩展 BLP 模型的情况.可以看出，随着密级合法范围增大，准确率显著提高. 


Fig . 3 Influence of dynamic secret level adjustment on algorithm performance 

图 3 密级可动态升降对算法性能的影响 

5.3 实际授权数据评测 

这里以信息工程大学的 OA 系统为例，挖掘其中的多级安全策略.系统面向学生、教师和行管人员，提供了 
教学管理、科研管理和行政管理等服务，采用了基于角色的授权访问控制 ( RBAC ). 学生虽然人数很多，但学生群 
体的权限相似性 很大; 不少教师是多角色，他们之间也有•定的相 似性; 行政人员人数较少，但权限个性化明显. 
主体权限以读/写和读为主，写权限极少.算法运行前需要将 RBAC 授权策略转化为主体对客体的访问控制 
矩阵. 

在范畴分配阶段，通过分析，我们抽取有代表性的少部分学生和角色不同的部分老师，将他们和全部行管人 
员作为算法的输入主体.在该系统中，输入主体共有48个，客体有162个.令 y @=3, 得到范畴挖掘准确率 X ^ R =83%， 
范畴划分结果见表2,包括门户、本科教_、研究生教学等8个范畴.其中， staff 和 teacher 加下划线分别表示行 
政人员一部分和教师一部分. 


图1表明,随着噪音比例尸„_的增大，准确率逐渐降低 .当尸 „_=0.5时,准确率仍达到70% 左右; 当/^ + se =1.0 
时 ，准确率降到40%左右.考虑到授权策略的随机性以及策略冲突等原因，结果表明，算法还是有效地挖掘到了尽 
可能多的符合多级安全规则的策略.图2显示了在上述其他参数相同的情况下，分别连续增加5次值和 c 值对 
算法的影响，其中 j 每次增加25, c 每次增加5.图2表明，值的增加提高了范畴划分的灵活性，可显著提高准确 
率.而 c 的增加对准确率没有显著影响,甚至产生掁荡.原因可能是 c 已达到了最优值，或者遗传算法还没有充分 
进化. 
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Table 2 Results of category partition of an OA system 
表 2 某 OA 系统的范畴划分结果 


Category 

description 

Portal 

Undergraduate 

teaching 

Graduate 

teaching 

Research 

management 

Administrative 

office 

Employee 

services 

User 

All 

Undergraduate/ 

Graduate/Staff/ 

Teacher/ 

Staff/ 

Teacher/Staff/ 

Staff/Teacher 

Teacher 

Staff 

Executive 

Executive 

Resource number 

15 

35 

30 

26 

34 

22 


在密级分配阶段,我们用5,8和20作为密级数目进行测试，算法运行参数为/ =150 ; r = l 0000, p =0.8, p m =0.05, 
结果如图4所示.可以看出，密级数目5的挖掘在遗传到6 000代时，已经收敛到64% 附近; 而密级数目为8和20 
的挖掘在遗传到8 000代时，均向76%附近收敛.这说明8和20作为挖掘出来的密级数目，很有可能是全局最优 
解，最优的密级数目可能就在8左右.所以，我们选择密级数目为8的密级分配解作为最终的解，最后得到算法总 
的准确率 Z 4 i ?=78%, 实现了该 OA 系统向多级安全系统的迀移. 



Generations 


Fig . 4 Results of secret level assignation for real-world data 

图 4 对实际数据的密级分配结果 


6结论 

策略转换是目前我国等级保护推进工作的一个重要内容.本文形式化地描述了多级安全中敏感标记最优 
化挖掘问题，证明了它是 NP 完全问题.我们将问题分解为范畴划分和范畴内密级分配两个过程，提出了基于层 
次聚类和遗传算法的方法来求解该问题.算法的复杂度分析和实验结果表明，该算法能够有效地分析出已有授 
权策略中存在的符合多级安全规则的模式.该方法可应用于非多级安全系统向多级安全系统迁移的自动实现, 
也同样适用于其他策略向基于标记的完整性模型(如 Biba 模型)的转换. 

下一步将研究在允许可信主体的安全级动态调整的扩展多级安全模型下敏感标记的最优化挖掘问题，如 
何获得更高准确率的策略转换算法也将会是进一步需要研究的问题. 
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Abstract : This paper analyzes the regular expression matching methods ’ time complexity , space complexity and 
the tradeoff between them . The experiences , problems , and challenges encountered by the regular expression 
matching in network security field are well-classified and discussed in depth . Focusing on the two issues , a 
comprehensive overview of the current optimizing techniques and strategies adopted by academic and business 
communities is presented . Finally , a conclusion and some suggestions for future research are put forward . 

Key words : signature matching ; deep packet inspection ; regular expression ; finite automata ; memory reduction 

摘要： 分析了基于有穷状态自动机的正则表达式匹配方法的时间复杂度、空间复杂度以及二者之间的制约关 
系，深入讨论了在网络安全应用中遇到的特有问题与挑战.围绕这两个问题，对当前出现的多种优化技术和策略进行 
了全面的综述和评价，最后对未来的研究方向进行了总结和展望. 

关键词： 特征 匹配; 深度包 检测; 正则表 达式; 有穷自 动机; 内存缩减 
中图法分 类号： TP 393 文献标 识码： A 

传统的网络安全检测是对数据包的结构化头部进行分析.然而随着网络的不断发展，许多病毒、恶意代码、 
入侵指令、垃圾邮件等信息都隐藏在数据包的内容之中.因此，备前在进行安全检测时，除了要对数据包头部进 
行检查之外，也要对数据包的内容进行检测.例如，入侵检测系统会针对各种入侵行为的特点建立一组入侵行为 
的特征模式集，并定义针对各种行为所应该采取的措施.这些行为特征和对应的措施构成系统的安全规则，当发 
现给定数据命中系统的某条特征模式时则采取相应> 的措施.病毒检测系统有一个庞大的病毒特征库.据统计，到 
2010年6月，网络病毒已接近758 473万种.病毒检测的主要操作就是在每一个文件中搜索病毒库中的特征. 
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这种使用一组给定的“特征”与网络中的数据内容进行比较，从而发现其中的恶意特征的方法称为深度包 
检测 (deep packet inspection). 对于网络安全应用来说,“特征”通常是指入侵检测、防病毒、垃圾邮件过滤等应用 
中定义的模式串，用来表示攻击、病毒或者垃圾邮件区别于正常网络流量的特征.最初的安全规则以精确字符 
串为主.然而，随着网络的不断发展，网络安全攻防双方的技术也在不断发展.为了躲避检测，各种攻击、恶意代码 
等又都在不断刻意隐藏自己的特征，这使得安全系统中所需要的检测规则也越来越复杂.例如， S nort [1] 规则: Alert 
tcp $HOME_NET any^$EXTERNAL_NET 1863(msg:“CHAT MSN login attempt’’;flow:to_server，established; 
(；01116111:‘‘11511”;(16卩1：11:4;1100386;(；0111611|；:“丁\¥>}”;出81&：«；6:1;11(«^6;)表示要同时匹配 “USR” 和 “TWN” 这两个关键 
词; 同样，对于原本为简单字符串的关键词，在实际中也可能以各种不同的形式出现(例如，“模式匹配”可能会写 
成“模#式#匹#配”).这就需要逐一识别各个部分后再进行一定限定条件(位置顺；I、 f 限间距等)的判断来进行 
识别.可见，为了表达更精确的语义和上下文信息，需要将多个特征按照一定的顺 f 和限定条件进行组合，形成 
一条复合的匹配规则.上述这些问题所需要的规则形式无法用精确串来描述，因此，经典的多模串匹配算法如 
AC[ 2] ，SBOM[ 3] ，WU-MANBER[ 4] 等也无法直接使用. 

当人们发现应用层上各种复杂的协议和网络中的攻击方式己经越来越难以提取出准确的字符串特征时, 
正则表达式以其强大、灵活的表达能力，迅速成为描述新一代规则的主要工具.商业界和开源社区都开始广泛 
使用正则表达式来增强协议特征和安全特征的描述.例如， Linux 应用层协议分类器 (linux application protocol 
classifier, 简称 L7-filter) [5] 就全部采用正则表达式来识别100多种应用层协议，其中包含了多个复杂的 P2P 协议. 
开源的入侵检测系统 Snort 在2003年以前，检测规则全部为精确字符串特征，但最新发布的规则集中，正则表达 
式的比例已经超过了 40%.Bro 入侵检测系统 [6] 也直接使用正则表达式来描述它的规则集.在商业市场上， 3Com 
的 TippingPoint X505 m 以及 Cisco 的各种网络安全系统 [8] 都开始使用正则表达式.目前， Cisco 已经将基于正则表 
达式的内容检测集成到了其网络操作系统中.在研究领域, UC Berkeley,bell-labs 以及 google 的 fang yu 等人 [9] 
论述了正则表达式在网络安>全检测和协议识别中的优势，对不同的匹配方法进行了分析和评价，并提出了规则 
改写和分组匹配等方法.随后，由于 cisco 公司 的推动， Washington University 的 Sailesh Kumar.Michela Becchi 等 
人对这个问题进行了更为深入和细致的研究，提出了 D 2 FA [1Q] 、 状态合并 (state merging) 111 』、H-FA [12] 、 混合自 
动机 (hybrid FA) [13] 以及， XFA [14] 等方法来实现大规模正则表达式的实用化.这些工作大大提高了某些特殊类型 
的正则表达式的实用化和匹配效率.国内学术界对高性能正则表达式匹配技术的研究也在不断加强，哈尔滨工 
业大学网络与信息安全技术研究中心、清华大学、国防科学技术大学、中国科学院计算技术研究所信息安全 
中心等，都在遂渐投入到这一关键技术的研究中. 

使用正则表达式来描述应用层各种协议和攻击的特征，比传统的提取精确匹配字符串^法更准确、更方 
便、更有效，然而，其强大的能力也使得它在实际应用中面临诸多的挑战.本文第1节给出正则表达式匹配的定 
义并对各种匹配方法进行分析和比较，最后着重强调正则表达式在网络安全应用中所面临的挑战.第2节~第4 
节详细介绍正则表达式匹配技术亟待深入研究的两个关键 问题: 空间缩减和性能保证，详细论述解决这些问题 
的多种方法及策略,对其优缺点进行评价.第5节对全文进行总结，并指出未来研究的若干方向. 

1问题描述 

1.1 正则表达式的匹配方法 

有穷自动机 (finite automaton, 简称 FA) 和正则表达式所表示的语言都是正则语言 [15] ，因此通常用来实现对 
正则表达式的匹配.有两种典型的有穷自动机可以完成这个任务:非确定型有穷自动机 (nondeterministic finite 
automaton， 简称 NFA) 和确定型有穷自动机 (deterministic finite automaton, 简称 DFA). —个 DFA 包括5个部分: 
(1) 有穷状态集合 e；(2) 有穷的输入符号集合工，又称为字 母表; (3) 转换函数又称为跳转函数，它以一个状态 
和一个输入符号作为变量，返回值为一个状态; (4) 初始状态 ^oeg)；(5) 接受状态集合 fV -个 NFA 同样包含 
这5个部分 . NFA 与 DFA 的区别在于, DFA 中疵)返回值确定为1个状态; NFA 中5是一个以状态和输入字符为 
变量的函数，但是返回值是可能包含0个或多个状态的集合 .NFA 和 DFA 之间可以进行相互转化，但是在从 NFA 
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到 DFA 的转化过程中，可能会出现状态数目的剧烈增长，称为状态“爆炸”.在本节的后面将会详细说明这种 
情况. 

实际应用中，由于对需要处理的数据没有任何先验知识,因此无法确定是否存在一个子串匹配给定规则或 
者匹配的子串从何处开始.在这种情况下，有两种方法来正确实现搜索:重复搜索和“一遍搜索 (one pass search )*'. 
重复搜索的具体做法 为:用 给定表达式直接构建自动机，然后以输入字符串的每个字符为开始位置重复搜索.在 
每次搜索过程中，顺次读取并处理字符，直到找出了所有的匹配子串.下一次搜索从上-次起始点的下一个字符 
开始(如果匹配类型为穷举匹配)或从最后一个匹配子串的下一个字符开始(如果匹配类型为非重叠匹配).重复 
搜索通常用于语言的解析中.因为可能要对同一个字符串进行多次搜索，所以其效率非常低.在安全检测类应用 
中，通常使用“一遍搜索”法.其做法为，将放在没有 “ A ” 标记的表达式的开头，然构建成自动机.这就意味 
着表达式所表示的模式可以出现在输入数据的任何地方.只要从前到后一次_扫描并处理每一个字符，就可以识 
别出从任何位置开始的匹配子串.本文后面的讨论都是针对这种情况. 

1.2 正则表达式匹配方法所面临的挑战 

在实际的应用系统中，通常都配置了多条规则.例如, 17- filter 的正则表达式规则为100多条，而 snort 则为数 
千条.为了叙述方便，本节中用 m 表示规则集中正则表达式的数目，《表示一条正则表达式的长度.为了完成对 m 
条正则表达式的匹配，有两种策略可供选择:(1)将每一条正则表达式编译成单独的一个 FA ;(2) 将 m 条规则编 
译到同一个 FA 中.前者使用在 Snort 和 Linux L 7 filter ¥，后者则在文献 [9,10] 中被提出. 

前面提到，对正则表达式的匹配需要使用有穷自动机来完成，但是 NFA 和 DFA 在实际应用中却有不同的优 
点和缺点 . NFA 的优点是空间复杂度比较低，因为 NFA 的状态数目与正则表达式的长度成线性关系.然而在处理 
每一个字符时，由于必须逐个处理活动状态集合中的多个状态，因此匹配效率非常低.若将多条规则编译到同一 
个 NFA 中，虽然可以在处理过程中同时匹配所有正则表达式的公共前缀，但在实际应用中却会形成更大数量的 
活动状态集合，处理一个字符的时间复杂度和将每个正则表达式编译成单独一个 NFA 的时间复杂度相同.相比 
之下，虽然 DFA 处理一个字符只#要访问一个状态，但若将每条正则表达式编译成单独的 DFA ， 其时间复杂度同 
样将随着规则数目的增多而增大.而将所有的正则表达式编译成一个混合 DFA 时，则会导致其空间大大增 
加，以轉前的硬件条件¥无法满足如此大的内存需求.使用不同的方法和策略进行匹配时所需要的空间复杂度 
和处理一个字符的时间复杂度见表 1. 


Table 1 Time and space complexity of various categories and methods 

表 1 不同策略和方法下的时空复杂度 



Compile m regular expressions into m FA 

Compile m regular expressions into a single FA 


Time complexity 

Space complexity 

Time complexity 

Space complexity 

NFA 

0{n z m) 

0(mn) 

0(n z m) 

0{mn) 

DFA 

0(m) 

0(m2 n ) 

0(1) 

0(2 ， 


从表1中可以看出，两种方法以及两种策略所形成的4种组合都无法同时满足空间复杂度和时间复杂度比 
较低的需求.要想对正则表达式进行实际应用，必须降低 NFA 处理一个字符所需要的时间复杂度或者对 DFA 所 
需要的内存空间进行缩减 . NFA 的时间复杂度是由其理论模型所决定的，所以在不改变处理器体系结构的情况 
下很难对其进行改进，因此，当前的研究大多集中于对 DFA 的内存进行缩减 . DFA 的内存消耗主要用于存储各个 
状态及其转换表,其空间需求由状态数目决定.下面给出几种典型的情况，它们会导致 DFA 状态数目急剧增长而 
又在实际规则中频繁出现. 

1.2.1 单条正则表达式构建 DFA 时的状态膨胀 

第1种导致状态增长的情况是，带有号的表达式中某个字符后面带有重复标记，且这个字符与其前驱字 
符出现了重叠覆盖.此时，需要大量的状态对所有可能的字符排列组合情况进行区分. 

例如，表达式“ A fi +[ A \ n ]{3} ZT 中,[〜]与字符 B 的交集为 S ， 其构成的 DFA 如图1所示.一般来讲，如果重复次 
数为 y 次，则阴影部分所包括的状态所形成三角形高为 j +1, 长为 j +1， 总共需要的状态为 0 ( f ). 
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Fig . 1 A DFA for pattern “ A fi +[ A \ w ] {3 } D ” 

图 1 模式“形成的 DFA 


第 2 种导致状态增加的原因是，不带有 A 符号的表达式通配符或者一组字符后带有有限重复操作符 ({» V! }, 
{«}). 此时， DFA 需要考虑任取字母表中的 n 个字符可以组成的所有情况，因此需要 0(2”) 个状态来记录.例如， 
* A .{ n } CZ ), 如果在后续的字符串中出现了 A , 那么如图2所示 s 每个状态都需要处理 ( A 和 not A ) 两种情况.为什么 
虽然第2种表达式与第1种表达式形式类似却有截然不同的空间复杂度 (0( m 2 ) 和 0(2") 呢?因为在第1种情况 
下，中间的状态每个只需要派生出一种新状态，或者转回到某个旧 状态; 而在第2种情况下,每个中间状态都可能 
派生出多个状态，从而造成指数级增长. 



Fig .2 A DFA for pattern ^^ * A .{ 2 } CD ^ , 

图 2 模式 “.* A .{2} CX »” 形成的 DFA 

1.2.2 多条正则表达式构建 DFA 时的交互作用 

上面描述了单条正则表达式构建在 DFA 时导致状态数目增长的情况.然而有些情况下，即使原来的单条规 
则不会引发状态数目的增加，一旦当将多条正则表达式编译在同一个 DFA 中，它们之间也会由于相互作用而造 
成 DFA 状态数目的急剧增长.例如，以./和 e /.* 奸，如图3所示，这两条规则在单独构建时都不会引起 DFA 数 
目的增长，但由于两个表达式中的都可以匹配另一条正则表达式所匹配的所有字串，因此将它们编译到一 
个 DFA 中时，必须用额外状态记录所有可能的组合情况，形成的 DFA 和示意图如图4和图5所示. 

一般而言,当多条规则编译^^一起时,如果有 fc 个正则表达式，每个表达式中出现 x 次则需要 0 {{ x +\) k ) 
个状态来记录所有可能出现的前缀的幂集.在这种情况下，即使每个规则只有1个操作符，增加一个类似的 
规则也会使得 DFA 的状态数目增加1倍.在 L 7- filter 中有很多类似的规则，例如，识别远程桌面协议的 “.* rd P dr 
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• * cliprdr .* rdpsnd ” 和 Internet radio 协议的 “.* membername .* session .* player”.snort 中也存在大量类似规则,而且某 
些规则中，符号的数目甚至达到了 6个. 


2j—q, 2j—c 



Z-e 工 -g 



Fig .3 DFAs for pattern ab 产 cd and ef.^gh 
图 3 模式和各自形成的 DFA 



Fig .4 Composite DFA for pattern ab 产 cd and ef’gh 
图 4 模式和 ef 产 gh 编译在一起形成的 DFA 


REl 



Fig .5 Exemplification of DFA obtained by compiling “.* REla 产 RElb ” and “.* RE 2 a .* RE 2 b ” together 
图 5 将模式和五 26” 编译在一起时的 DFA 结构示意图 

本节叙述了一些能使 DFA 状态发生巨大膨胀的正则表达式操作符，而这这些操作符也正是在实际中最常 
用的.截止到2007年11月，8 536条 snort 规则中有5 549条正则表达式.在这些表达式中，含有的规则有905 
(16.3%)条，而含有“. { n }” 操作符的规则有2 445(44%)条.通过上述分析可知，将这些规则构建成 DFA 需要极大的 
内存空间，因此，基于 DFA 的匹配方法无法直接应用在实际中. 

2基于冗余消除的内存空间缩减 

一个 DFA 状态通常由两部分组成 :表示 5函数的转换表和接受规则列表.前者为一个大小为12!的数组，在实 
际应用中，2通常选取为 ASCII 表，其大小为256项，每一项表示当前状态在接到一个字符输入时将跳转向哪个状 
态.后者通常为一个链表，表示匹配过程中若经由一系列转换跳转到了当前状态，则当前输入的字符串与哪些正 
则表达式匹配.这个列表可以为空，也可能为多项.如果某个状态的接受列表不为空，则称其为接受状态.一个具 
有《个状态 DFA 的主要存储消耗为一个的二维表，它占用 DFA 空间的95%以上.本节介绍的方法都是对 
这个二维表的存储空间进行缩减. 

2.1 减少字母表的大小 

对一个 DFA 来讲，转换表为一个二维表，其行数等于 DFA 的状态数目，而列数等于字母表中字符的个数.如 
果可以减少整个转换表的列数，则可以有效地降低内存消耗.基于寻找等价类的字母表压缩法就是利用这一原 
理来减少 DFA 的内存消耗.其基本思想是，字母表2^的字符可以分成若干类，每一类包含1个或多个字 
符.如果其中一类包含多个字符，那么这个类中的任意两个字符 c , 和 q 必须满 足:对 于给定 DFA 的所有状态，都 
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有次 s ， C , 陈曙晖等人在文献 [16] 中提出一种基于集合交割的方法来对输入字符进行预编码，从而减少自 
动机转换表的列数.文献 [11] 中也提出了类似的方法，它们首先将整个字母表看成属于同一等价类，然后对自动 
机的状态进行遍历，根据每个状态的转换表不断将现有的等价类进行分割.文献 [17] 中进一步扩展了这种方法. 
文献 [18] 的作者则观察到，目标为同一个状态的转换，其对应的字符往往都是相同的.因此，它将状态和输入字符 
进行联合编码，形成 state - char 编码，进一步提高了对字母表中字符的压缩效果. 

2.2 缩减单个状态的冗余转换 

DFA 结构类似于一个有向图，它的每一个状态都可以在接受一个输入字符后跳转向另外一个状态.但是对 
于不同的字符，其跳转的目标状态却可能是相同的，这就形成了单个状态内的转换表项冗余.图6中给出了一个 
简单的 DFA 以及状态1的转换表，假设字母表可以看出，状态1的跳转表中6和(：两项的值是相同 
的，因此可以通过消减这种相同表项的冗余来减少跳转表需要的空间.文献 [11] 中提& 了 一种增加间接转换表 
的方法来消除冗余，其基本思想是，将原始的表改用两个表来表示 :一个 表用来/存储跳转的目标，称为转换表，但 
是对于多个相同的表项只存储1 次; 另一个表有121项，对应字母表中的每一个字符，但是它不存储实际的跳转目 
标，而是存储跳转目标在转换表中的索引，称为索引表.在实际应用中，跳转目标通常为整数或者指针，且最多有 
121种不同的值,因此索引表只需要用 loglllbits 就可以对转换表进行索引_原始表项中存在大量冗余时，使用这 
种索引表的方式就可以节约大量的空间.例如在图3中，假设原始表项为 32 bits , 则索引表的每一项可以用 2 bits 
来表示.由于有两个跳转项相同,因此可以节约 32 x 4-32 x 3-2 x 4=24 bits . 



Original transition table 


a 

b 

c 

d 

~T 

丁 

丁 



Index table 


a 

b 

c 

d 

IT 

丁 

丁 

~T 


Transition table 


I 


Fig .6 DFA and its original transition table , transition table and index table 

图 6 DFA 及其原始转换表和索引表 


在实际的 DFA 中，多数状态往往只对少数几个字符有不同的目标状态,而大多数字符都会跳转向初始状态 
&或者 DFA 所形成的有向图中的某些起连接作用的关键节点，因此会存在大量的冗余项，使用索引表的方式可 
以节约大量的存储空间.然而这种方法在处理一个字符时，需要先访问一次索引表，然后再从转换表中找到真正 
的目标状态，比直接读取原始跳转表增加了一次访存操作. 


2.3 消除不同状态间“等价”项的冗余 

在 DFA 中，不但单个状态的转表内存在着冗余项，不同的状态之间也存在着大量的相同项冗余.图7给出了 
这种情况的一个典型例子.如图7所示的 DFA 由 “ a +”，“6+ c ” 和“<;¥’这3个正则表达式构建而成，共有5个状态, 
并且任何一个状态的转换表内部都不存在相同项的冗余.然而通过观察其原始转换表可以发现，在各个状态间 
却存在着大量的相同项冗余.为了描述方便，给出如下定 义:两 个不同的状态 s 和 f ， 如果对于相同的输入字符具 
有同样的跳转目标，则称这两个跳转项为等价项.如果可以消除不同状态之间由等价项引起的冗余，则可以进一 
步减少存储空间. 

2006年， Kumar 等人在文献 [10] 中首4提出了消除等价项冗余的方法，其基本思 想是: 如果两个状态 i 和 f 
对于相同的字符具有相同的跳转目标，则在其中一个状态 s 中去掉所有和 f 中等价的表项，然后再引入一条从 s 
到 r 的转换，称为缺省转换 (default transition ), 它不需要输入字符也能进行跳转.在进行匹配时，如果访问到了状 
态^并且$对当前的输入字符 c 没有定义跳转目标，则根据其缺省转换跳转到 t ， 然后从 t 中取出跳转目标或者 
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继续到 f 的缺省目标状态中去找跳转目标.这种为每个状态增加了缺省转换的 DFA 称为 Delayed Input 
DFA ( D 2 FA ). D 2 FA 的构建方法为:首先以 DFA 的状态为顶点形成一个完全图，然后计算任意两个状态间具有的 
等价项的数目，并以此数目作为完全图中每条边的 权值; 接着使用克鲁斯卡尔算法生成1个或多个最大生成树， 
称为消减树;最后以消减树的边作为缺省转换，完成冗余项的消除.图8给出了图7中 DFA 对应的 D 2 FA 及其转 
换表，其中，状态1为整个消减树的根节点，加粗的黑线表示缺省转换，跳转表中空白项为消减掉的项，有值的转 
换项称为有效转换.可见， D 2 FA 中的转换项数从原始 DFA 的20项缩减为9项.匹配时，若当前活动状态为状态 
3,而输入字符为“/’，则由于状态3对应于的跳转项己经被缩减，因此必须沿着其缺省转换，读取状态1的转换 
表并取得对应于字母 d 的跳转目标 :状态 4. 





a 

b 

c 

d 

Default 

1 

2 

3 

1 

4 


2 





1 

3 



5 


1 

4 





1 

5 





1 


Fig . 7 DFA and its original transition table Fig .8 D 2 FA and its reduced transition table 

图 7 DFA 及其原始转换表 图 8 D 2 FA 及其缩减后的转换表 

虽然 D 2 FA 结构可以消除不同状态间等价项带来的冗余，极大地降低了 DFA 需要的空间，但是它增加了处 
理一个字符的时间复杂度.因为在原始的 DFA 中，每一个转换都会“消耗”一个字符，而 D 2 FA 中，缺省转换是不消 
耗字符的.对于 • •个字符， D 2 FA 可能需要经过多次缺省转换才能找到其跳转目标.为了能够在消减空间消耗的 
基础上保持匹配效率, Kumar 在文献 [19] 中对 D 2 FA 进行了改进，提出了 CD 2 FA . CD 2 FA 在转换项中 f 再直接存 
储跳转的目标状态，而是存储以下信息:(1)从消减树根节点到状态自身的路径所经过的祖先 节点; (2) 这些祖 
先节点的有效 转换; (3) 当前节点所拥有的有效 转换; (4) 路径中所经过的接受状态节点.因此在 CD 2 FA 中，转换 
项被称为 content label . 同时还提出了一种构造哈希函数的方法，这个哈希函数可以用 content label 为输入，计算 
出对应于每个字符的跳转目标的地址.使用 content label 可以使 CD 2 FA 能够和原始 DFA •样，在处理一个字符 
时仅访问1个状态.但是由于每个 content label 项的容量有限，因此消减树的直径不能过大，通常取小于等于2, 
这就影响了缺省转换的消减效果 .Becchi 在文献 [20] 中提出了另一种简单而有效的办法 :首先 将原始 DFA 的每 
个状态附加一个深度值，这个值等于从初始状态&到其自身所需要经过的最短 路径; 然后在构造消减树时，只允 
许缺省转换从深度值较高的状态指向深度值较低的状态，但不需要限制消减树的半径.这种方法生成的 D 2 FA 
在处理某一个字符时可能会访问多个状态，但是可以证明，在处理一个长度为》的字符串时，其访问的状态数目 
不大于 2 w . 

2008年， Ficara 等人在文献 [18] 中提出了另一种消除状态间由等价项而形成的冗余的方法.这种方法的思想 
源于 D 2 FA , 但是却没有使用缺省转换,而是为 DFA 增加了一个临时转换表 (local set ). 他们观察 到:在 DFA 中相 
邻的状态之间，一般会有大量的等价项.例如，在图7中，状态2和状态1具有完全相同的转换表，而状态3仅与状 
态1在输入字符 c 时具有不同的跳转目标.因此，如果每个状态仅仅存储与其相邻状态不同的表项，而其余表项 
直接从其父节点继承而来，则形成的 DFA > 原始 DFA 等价.这种仅仅存储与其上级节点不同的项而形成的 
DFA 也因此被称为 SFA . 其构造过程 为:首 先申请一个新的二维转换表，然后从原始 DFA 的初始状态 s 0 开始，先 
将初始状态的转换项全部拷贝到新表中的对应行，再从这个状态出发遍历 DFA 中所有状态，如果一个状态对应 
某个字符转换项与其任意一个父节点的相应项不同，则需要在新表的对应项中存储这一项，否则丢弃此项. 
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图7中 DFA 形成的 SFA 及其转换表如图9所示.可以看出，除了状态1和原始 DFA 具有相同的转换表之外， 
其余状态都只存储了 1项有效转换，并且不需要引入额外的缺省转换 .5 FA 将原始 DFA 的20项转换缩减到了 8 
项.在匹配时， 5 FA 需要•个临时转换表，其初始值为 5 FA 初始状态&的转换表，每次经过转换到达一个新状态 
时，首先根据新状态的转换表更新临时转换表的表项，然后再根据输入字符从临时转换表中找到目标状态.因 
此，处理每个输入字符只需访问1个状态.图10给出了图9中 5 FA 在处理字符串以 c 时的过程，圆圈中表示状态 
及其转换表，下面的表为临时转换表在遍历到相应状态时的内容.在初始状态1时，其内容与状态1的转换表完 
全 一致; 而通过字符《跳转到状态2时，它首先将对应于字符 c 的转换表项进行更新，然后通过跳转向3.此时， 
再次将对应 C 的表项更新成5,然后再继续执行 .5 FA 并不能完全避免冗余，例如，图中状态2和状态1对应于 c 
的跳转目标依然相同.这是因为对应于字母 c 的转换虽然与状态1相同，但是却与状态5不同，而在遍历中，状态 
1和状态5都可能成为状态2的前驱节点，因此状态2必须存储对应于字符 c 的转换，才能保证在各种情况下都 
与原始 DFA 等价.它还必须增加额外的操作来更新全局表项，如果_ •个状态存储的有效状态比较多，则更新操 
作将会降低匹配的效率. 



Fig . 9 5 FA of a +, b + c , c * d + and its reduced 
transition table 


Fig . 10 A lookup example of SFA 


图 9 a + 力 + c ， c * rf + 所形成的 SFA 及其缩减后的转换 

2.4 消除不同状态间非等价项形成的冗余 


图10 5 FA 查找过程 7 K 例 


上面介绍的方法都是消减不同状态间等价项形成的冗余，这意味着只有两个状态的转换表项对应的转换 
字符和目标状态都相等时才能进行消减.但还存在另一种形式的 冗余: 不同状态间非等价项的冗余.下面以图11 
为例说明这种情况.图11的左半部分给出了由正则表达式生成的 DFA ， 右边给出了状态 
1〜状态4的索引表和转换表.为了便于观察，图中省略了所有目标为状态为0的转换.可以发现，虽然在实际的转 
换表中仍存在冗余，但这些表项却不都是等价项，因此不能使用上面的方法来消除.例如，状态3和状态4中都有 
跳转向状态5的项，但却分别对应字符匕-;_]和/ 

为了能够对这种冗余进行消除,2007年， Michela 提出了状态合并 (state merging ) 的方法 [11] .其基本思想是，如 
果两个状态具有目标相同的转换表项(无论是否 对应于 相同的字符)，则将两个状态合并起来，形成一个混合状 
态.混合状态拥有合并前原始状态的两个索引表以及一个合并后的转换表.图12中给出了图11中 DFA 经过状 
态合后并得到的新的 DFA 及其对应的转换表.如图所示，状态1和状态2合并之后形成了混合状态1_2,状态3 
和状态4合并之后形成了混合状态3_4.在状态合并之 fe ， 还必须进行以下两个操作来保持新的 DFA 与原始 
DFA 等价:(1)在对状态进行合时，将原来的两或多个转换表合并成了 1个,所以某些目标表项的索引位置可能 
会发生变化.例如，状态2的对应于字母 g 和/;的项，在原来的索引表中为3,而合并后，其索引值变成了 4.因此, 
在合并转换表后必须对混合状态的索引表进行更新，使其指向的目标转换项与原来的项一致 .(2) 状态合并后， 
两个状态变成了 1个状态，原来目标指向这两个状态的转换也都更新为指向这个混合状态.但是这会使得遍历 
到混合状态后无法决定选取哪个索引表来进行下一次跳转目标的选择，因此在状态合并后还需要对合并前的 
索引表进行标记.以图12为例，状态3的索引表成了标记为3_4.0,而状态3的索引表则标记为3_4.1，原来指向 
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状态 3 的跳转目标项也相应地添加一个标记 0, 目标为 4 的项则增加一个标记1.这样，原来跳转向状态3的项就 
可以根据标记0去状态3_4中的索引表3_4.0中去查找下一次跳转的目标.为清晰起见，图12中的转换表没有 
给出这个标记，而是在 DFA 示意图中的转换上标出. 
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Fig . 11 DFA and its transition table and index table 

图 11 DFA 及其索引表 



Index table 
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Merged transition table 
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Fig . 12 DFA after state merging and its merged transition table and index table 

图 12 状态合并后的 DFA 及其合并后的转换表和索引表 

状态合并与基于消除等价项的方法相比有两个优点 :首先 ，它不需要被消减项是完全等价的，只要有相同的 


跳转目标就 可以; 其次，随着合并的进行，还可以创造出更多的合并机会，而消除等价项的方法是静态的.其不足 
之处在于 :首先 ，它需要和 D 2 FA - 样建立•个以 DFA 状态为顶点、顶点间公共转换数目为权值的完全图，因此 
当 DFA 状态为 n 时，需要 0( W 2 ) 的额外空间.其次，在原文的方法中，每个混合状态最多可以容纳的状态数目是需 
要人为指定的(用 maxjabels 表示)，由于在每 次 合并之后需要重新计算和合并后状态相关的权值，因此整个 
合并过程的时间复杂度高达 ( l - l / max _ M > e / s )« 3 logn ). 同时，由于 maxjabels 为人为指定，所以每个混合状态的转 
换表项数不相等，这会造成相应索引表项所用的 bit 位数也不相等.在实现中，要么使用额外的标记进行记录从 


而付出额外的空间代价，要么选取统一的长度(最长 bit 位数)，这也会造成空间的浪费.后一种浪费的本质是对索 
引表项的索引能力的浪费.为此，文献 [21] 中提出了转换表共享方法以改进状态合并方法.转换表共享的基本思 
想是 :对有 相同转换项的多个状态不进行合并，而是让^它们共享同一个转换表.和状态合并•样，它首先将多个 
状态的转换表合并，形成一个大的公共转换表，然后对共 享这- -转换表的状态的索引表进行更新，以保持与原始 
DFA 的等价性.不同之处在于，它并不将这些状态合并成一个混合状态，而是保持状态的独立，因此不需要对转 
换和索引表进行额外的标记.更重要的•点是，它并不直接指定而是指定索引表项的 bit 数目 w , 然后 
在共享的过程中使用启发式共享策略，逐个选择下一个状态，使得最后形成的公共转换表项恰好等于 r ■项，这能 
够使得索引表项的表达能力被充分利用..考虑到 DFA 中相邻状态往往具有更多的等价转换，转换表共享可以从 
DFA 的初始状态开始，按照宽度优先的顺序进行试探，从而省去装换表合并时对以状态为顶点的权值图的搜索 
和更新过程. 
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3基于自动机结构改进的内存缩减 

第2节所述的基于冗余消除的内存缩减技术可以大规模缩减 DFA 所需要的内存空间，甚至可以缩减掉原 
始 DFA 所占用内存的90%以上.然而这类方法无法彻底解决 DFA 的空间占用 问题: 首先， DFA 的内存是随状态 
数目的增长而增长，从第1节的分析可知， DFA 的状态数目是平方级甚至指数级的增长，而无论怎样缩减，要想保 
持与原始 DFA 的等价性，都至少要保持其状态之间的连通性，这意味着最多将 DFA 的图形结构缩减成一棵以各 
个状态为顶点的树，而树的边与顶点是成线性关系的，因此冗余消除只是线性的缩减，无法解决状态的指数级增 
长带来的空间 消耗; 其次，基于冗余消除的缩减方法大都需要额外的辅助内存空间,例如， D 2 FA 和状态合并方法 
都需要0(« 2 )空间来保存权值图.但有些规则集根本不能在现有的硬件资源下建立起单个的 DFA 结构，因为其 
原始 DFA 本身所需求的内存就己经超过了系统可提供的内存.此时，即使是 5 FA 和转换表共享这些方法可以在 
原始 DFA 上执行的方法，也不能处理这种情况.本节对另一种内存缩减方法进行分析和介绍，这种方法从改进 
自动机的结构出发，力图从根本上解决空间膨胀 问题; 同时,这种方法还可以和前面的方法叠加使用. 

3.1 规则分组 

从第 1.2.2 节可知，当多条正则表达式编译成一个 DFA |寸，正则表达式之间由于相互重叠和影响,会导致 
DFA 的状态数目大规模的增长，甚至多个本身不会引起状态“爆炸”的正则表达式，由于互相交互也会导致 DFA 
状态剧增.针对这种现象， Yu 等人在文献 [9] 中提出了将正则表达式进行分组的思想.其方法 是:首 先计算正则表 
达式两两之间是否“相交”(引起状态增长)，然后构造一个“相交”关系图.关系图以每一个正则表达式为顶点，如 
果两个表达式相交，则用一条边连接相应的两个顶点.在进行分组时,首先选择一条与其他表达式具有最小相关 
度的正则表达式开始，然后按照相同的原则向这个组里不断添加，直到这个组形成的 DFA 内存超过预先设定的 
阈值，再开始创建另一个新组.重复这个过程〔直所有的表达式都被分配出去为止.这种分组尽可能地减少了表 
达式之间的交互作用，大大减少了空求 . Yu 等人提出的分组方法是一种朴素的启发式分组，而文献 [22] 中则 
提出一种更加合理的分组策略 :首先 定义了膨胀率 DR 来描述正则表达式的空间膨胀 特性; 然后，基于 DR 提出 
一种分片算法，这种方法有效地选择出导致 DFA 状态膨胀的片段并进行隔离，从而降低了单个正则表达式存储 
需求.同时，文中还基于正则表达式的组合关系提出了一种选择性分组算法. 

分组方_对 DFA 和正则表达式之间的关系进行了研究，但是只是做了简单的分组处理，通过将一个 DFA 分 
解成々个 DFA 的方法降低了空间需求.但在内存带宽不变的情况下，会将匹配效率降低为原来的 1 /L 

3.2 混合结构自动机 

NFA 的空间复杂度和正则表达式的长度呈线性关系，而 DFA 是通过 NFA 确 fe 化得到的.从这一点出发，早 
期的研究中就出现了通过对 DFA 和 NFA 之间的转化程度进行调节来实现状态控制的基本思想 [23 ' 24] .近年来， 
随着空间问题的日益凸显，文献 [25] 中提出了 lazy DFA 来匹配正则表达式、..它只将命中频率较高的规则转化成 
DFA , 而对那些不常出现的规则，先维持它们的 NFA 状态,如果在匹配过程中遍历到了相应的 NFA ， 再将其确定 
化成 DFA . 这样 ,lazy DFA 通常比全部确定化的完全 DFA 具有少得多的状态,且其平均时间复杂度与完全 DFA 
相当, Bro 中就使用了这种方式.但其最坏时间复杂度比较差 f 为对于第1次被命中的规则，它需要首先将其进 
行确定化,这就导致了对这条数据处理的速度会很慢.并且这种动态扩展的方法只适合软件实现，如后面将叙述 
的，现在的具体实现可能还需要一定的硬件结构_进行加速， 

文献 [13] 中提出了一种混合自动机的方法，其基本思想是，在将整个规则集编译成一个 NFA 结构之后，并不 
对它进行完全的确定化，而是在确定化的过程中判断状态之间的跳转是由哪种情况引起的，如果一个跳转是由 
第1节中分析的几种导致状态增长的情况形成的,就停止确定化.停止确定化的状态称为边界状态.进行部分确 
定化的结果就是形成了一个混合的自动机结构，它的前面一部分是 DFA 的状态，而在每个边界状态之后都带有 
一个 NFA , 这个 NFA 以边界状态作为初始状态.混合自动机具有以下性质:(1)初始状态是 DFA 状态; 
(2) NFA 部分只有在匹配过程访问到边界状态时才会被激活.最重要的一点是，不存在从 NFA 向 DFA 部分的转 
换，因此可以互不影响的执行.图13左半部分为混合自动机的示意图， head - DFA 表示被确定化了的状态组成的 
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DFA , 有阴影的小圆表示边界状态，它们通常是由 “.*”，“.{ M r 等符号形成的.其后跟着若干个 NFA ，称为 t a il - NFA . 



Fig . 13 Exemplification of hybrid FA 


图 13 混合 FA 示意图 


混合自动机可以有效地控制由于确定化带来的状态增多，但当 NFA 部分频繁地被激活时，其处理速度退化 
得也很快.为此，文献 [12] 中提出了两种改进措施.第1个措施是，将尾部的 NFA 也确定化成 DFA ， 这样可以保证 
每个尾部的 DFA 只有1个状态处于激活.不过，这种方法只对类型边界状态后的 NFA 有效才有效，因为如果 
是对明这种规则，则可能需要维持多次重叠激活才能保证匹配的正确性，而却只需要1个.第2个措施针 
对“. { n }” 类型的操作符，在构建自动机时，它将产生多个相同的状态，为了减少状态数目，可以用一个状态并附加 
计数器的形式来实现对重复次数的记录.根据不同的情况，可以使用1个或者多个计数器来，对多个计数器用存 
储差值的形式进行实现，这样，只更新两端的计数器就可以管理整个计数器组. 

3.3 基于历史记录的自动机 

虽然混合自动机兼具 DFA 的速度和 NFA 的空间复杂度，但是在实际应用中，尤其是规则集已知的情况下， 
攻击者很容易构造出特殊的数据包，使得其 tail - FA 部分不断被激活，从而使整个自动机的效率接近于 NFA . 为 
了改进这种情况，文献 [12] 中提出了一种基于历史记录的自动机 ( H - FA ), 这种自动机在避免状态膨胀的同时，任 
一时刻都只有1个活动状态.这个方法利用了第 1.2.2 节中的 分析: DFA 的状态膨胀通常是由于某些规则的形式 
为多个简单特征被闭包操作符连接起来(如或者“[«]*”)，而一个输入字符串可能同时匹配多个简单特征，此 
时， DFA 必须增加状态来模拟这些特征的排列组合情况，从而导致了 DFA 状态的指数级增长.为1■避免这种指 
数级增长 ，一 个直接的办法就是构建一种可以记住更多信息的自动机 . NFA 具有这种能力，因为它的活动状态是 
-个集合，可以记录每一条特征的匹配进度.但是, NFA 处理一个字符的时间复杂度太高，无法满足匹配效率的 
需要 . H - FA 的基本思想是增加一个很小的高速缓存空间 ( cache ), 称为历史缓存.将构建自动机时的关键事件记 
录在这个 cache 中，例如遇到一个闭包符号，这个思路类似于前面的边界状态.由于状态的膨胀是由于闭包符号 
引起的，所以一旦在 cache 中记录了这个事件，就可以依靠读取这个事件的记录来避免使用多个状态来表示其 
排列组合情况. 

H - FA 的结构类似于普通的 DFA ， 但是它的每一个状态对一个字符可能会有多个转换表项，但在匹配过程 
中每次只会选取其中1个，而选取哪一个则依赖 f cache 中的内容.因此， H - FA 进行匹配必须依靠历史缓存 
( cache ) 中的记录，且 Cache 中记录的内容也会随着匹配的中间结果不断被更新 . H - FA 的大小取决于如何选择 
cache 中的存储内容，只要策略得当，它就可以消耗非常小的内存空间. 

图14中给出了一个 H - FA 的例子.图中首先给出了一个 NFA ， 然后对这个 NFA 进行确定化形成 DFA ， 以及 
-个对应的 H - FA . 可以看到，在原始的 DFA 中有10个状态，而 H - FA 中有6个状态和一个月叩标记.这个 /Zflg 
有两种状态: set 和 unset (用 <=1 和<=0表示)，由字符 a 引起的从状态0到状态(0，1)的转换会引发 reset flag 的操 
作，而由字符6引起的从状态(0，1)到状态0的转换会引发 set flag 的操作.有_ •些转换需要依赖 / Zag 的状态进行 
选择，例如，当状态0收到输入字符 V 时，如果 / Zag 处于 set 状态，则会跳转向状态 (0,3); 否则，将会跳转向状态0本 
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身.可以验证，这个带有/?叩标记的 H - FA 与原始的 NFA 接受同样的语言，但是它在处理一个字符时，仅需要访问 
1个状态. 




Fig . 14 NFA and its corresponding DFA and H-FA 
图 14 NFA 及其对应的 DFA 和 H-FA 

3.4 XFA 

H - FA 拥有对一个输入字符仅访问 1 个状态的特性，但是其状态对于一个输入字符却可能有多个跳转项.在 
需要存储的内容比较多的情 A 下，某些状态可能会出现大量的条件转换.同时， H - FA 只是对闭包符号带来的状 
态膨胀进行了改进，而无法处理另一类指数级增长的符号(例如，“. { n }”). Smith 等人在文献 [14,25] 中对这种使用 
额外标记进行中间结果记录的方法进行了改进和扩展，提出了 XFA 结.和 H-FA 一样, XFA 也使用了一个高速的 
数据区来存储信息，但是它在其中存储了更多的信息，除了 H - FA 中使用的标记以外，它还专门为 

型操作符设计了计数器型标记.这个计数器类似于混合自动机的优化策略中提到的计数器，可以对某个 
字符或字符字串出现的次数进行记录.除了标记之外，还在数据区中存储了操作代码，用来实现对标记进行更 
新.它将这些操作和状态关联起来，当匹配过程中访问到某个状态时，就执行\这个状态相关的代码，同时根据 
与这个状态关联的标记来判断这个状态是否为接受状态 . XFA 与 H - FA 的一个童要不同之处在于:它的状态对 
于一个字符，只有1条转换边，而不是存在多个条件转换边. 

图15中给出了针对两种不同操作符的 XFA . 图 15( a ) 中的4图给出了 lE 则表达式 “ WcW [〜] {200}” 生成的 
DFA , 可以看到，为了记录 [ A \ n ]{200}， 原始 DFA 使用了 200个状态，而其下面的 XFA 中使用了一个变量 c 以及相 
应的“赋值”、 “ reset ”、 “自减”以及“条件判断”操作避免了 200个重复状态的使用.同样，图 15( b ) 中的上图给出了 
两个 XFA ， 分别是从正则表达式 “ flW ’ 和 “ e /.* 冲”构建而成，它们分别使用了/7吼和伽 g 2 来标记是不是已经匹 
配了各自表达式的前半部分.对比第1节中的例子$以看出，对于这种类型的规则，单独生成 DFA 和 XFA 其状 
态数目是相同的,反而是 XFA 比 DFA 多了一个标记和若干个操作.但当多条这种类型的正则表达式编译在一起 
时， XFA 就有了明显的优势，因为原始 DFA p 要17个状态，而 XFA 仅需要7个.因为有了标记变量和操作 , XFA 
就不需要更多的状态来记录两个表达式前^匹配的排列组合情况，避免了 DFA 中状态数的膨胀.由于 XFA 在匹 
配过程中每次经过一个状态时都 f 能要执行多条操作指令来更新各种标记， Smith 等人还提出了一种优化技 
术，将构建后 XFA 的数据区映射为一种称为 efficiently implementable data domain ( EIDD ) 的结构，以便提高匹配 
的效率. 
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( b ) 


Fig .15 Original DFAs and its corresponding XFAs 
图 15 原始 DFA 及其对应的 XFA 

4 基于不同体系结构的实现优化 

第2节和第3节分别介绍了两类内存缩减技术，从而使基于自动机的匹配方法可以在当前的硬件资源上运 
行.但这两种方法有一个共同的缺点 :内存 的缩减是以牺牲部分时间复杂度换取的.基于冗余消除的内存缩减, 
会使得自动机在处理一个字符时需要访问多个状态或者多次访存才能得到真正的跳转目标，而改进自动机结 
构的方法则需要在跳转的同时增加额外的操作来辅助匹配过程的正确执行.这些操作或者增加了访存次数，或 
者增大了计算量.然而，当前多种多样的计算架构为消除这种负面影响提供了可能.例如，多级内存结构可以缓 
解访存延迟，多线程并行能力可以实现多个引擎同时工作或同时对多个跳转项进行查询和更新缓存内容等等. 
为了能够实现尽可能大的吞吐率，研究者在不同体系结构下的实现上提出了各种优化办法. 

目前，用来进行特征匹配的硬件结构可以大致分为两类:可编程逻辑门阵列 (field programmable gate array , 
简称 FPGA ) 和以内存为中心的计算体系，如图 16 所示 . FPGA 的优点是可重塑性强，具有较好的并行执行能力, 
能够在1个时钟周期内完成多步计算，因此有很多特征匹配的研究都是基于 FPGA 的特征匹配 [26 _ 29] .其缺点在 
于时钟频率比较低，计算速度慢，而且价格昂贵，资源(空间、功耗)消耗大，扩展性差，因此用来进行正则表达式这 
种资源消耗较多的匹配时具有很大的局限性.而以内存为中心的计算架构，比如通用 CPU ， ASIC , 或者 FPGA / 
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ASIC + 内存等，则具有计算速度快、通用性和扩展性比较好等特点.实验结果表明，基于 NFA 的正则表达式匹配 
可以在 FPGA 上取得更好的最好的吞吐率.而在以内存为中心的架构下， DFA 和混合自动机更加有优势 [3D] .下面 
介绍一些在特定体架构下的优化技术. 



Memory centric architectures 

FPGA 

logic 

/" ~\ /" N 广 N 

General Network FPGA/ASIC 

purpose processors + 

processors I | | memory 

V _ J X._ ) V_ J 


V, _ J 


Fig . 16 Various computing architectures 

图 16 计算架构分类 

在基于 FPGA 的研究中，主要针对的问题是减少存储空间和优化电路.由¥不是本文讨论的重点，在此只进 
行简要介绍.文献[31，32]都是通过共享规则间的相同前缀来减少 FPGA 所需要的电路总数.文献 [31] 中给出了一 
种算法来生成共享匹配串前缀的电路,而文献 [32] 则提出了使用多路选择器对多个共享前缀子串的表达式进行 
并行匹配.文献 [33] 中针对正则表达式中有限次重复操作符(如 c ?{ l ,8}) 的匹配进行逻辑电路的优化设计，以减少 
存储空间的需求.文献 [34] 中提出了一个基于 FPGA 的 NFA 匹配引擎，它将每个状态编码成一个触发器，可以在 
1个时钟周期里处理1个甚至多个字符而不受活动状态数目的影响，但其效率会随着每个状态拥有的转换数目 
的增多而下降.文献 [35] 则提出了一种将 NFA 转换为 VHDL 并对其进行优化的方法. 

下面重点讨论一组在以内存^中心的架构下的实现技术.文献 [11] 针对 D 2 FA 提出了一个基于拥有多个嵌 
入式内存的架构的实现策略，并设计了一种算法可以有效地将 D 2 FA 映射到这个体系结构上.这种拥有多个等 
量内存块的架构是一种逻辑结构,它可以用带有 Mb 级别的 FPGA (如 Xilinx Virtex -4 [361 ), 有片上内存的 ASIC 
以及通用 CPU 来实现.使用片 | 上'内存来存储自动机而不是直接将其固化到逻辑门中，是因为考虑到正则表达式 
的规则集可能会经常发生变动，因此整个系统需要有更好的灵活性和可扩展性，并且嵌入式内存块越小，其访问 
的时钟频率通常就越此，将 D 2 FA 映射到内存中时，要尽量减少分片率并且每片内存都有相等的访问率，这 
样整个系统中就不会出现效率瓶颈.在这个逻辑架构中，每个内存可以被一组正则匹配引擎访问:每个引擎可以 
独立处理数据包，多个引擎可以用来实现包级别或者流级别的并行策略加速.由于对包的处理速度取决于单块 
内存的带宽，因此整个系统的吞吐率接近于所有内存的带宽和. 

文献 [22] 为 XFA 提出了一个芯片级的架构设计.这个架构可以在支持24 567个 XFA 状态时拥有 lOGbps 
的吞吐率.它有8条包处理流水线，每个流水线分为3部分 :匹配 引擎、代码查询引擎和处理单元，处理单元的时 
钟频率为 500 MHz . 匹配引擎中使用多端口的 SRAM 来存储转换表，并使用了第2节所述的基于 D 2 FA 的内存缩 
减技术，每个 state id 用 15 bit 来标记.引擎处理每个字符时，需要访问一次转换表,每两个 cycle 处理一个字符.代 
码查询引擎的输入是匹配引擎所遍历的状态序列，它将这个状态序列转换成一系列需要执行的操作指令.处理 
单元执行代码查询引擎给出的指令序列.被执行的指令放在一个 64 K 的指令缓存中，由于指令缓存不足以存储 
XFA 中所有的指令，因此启用了一些缓存更新策略，在遇到_指令时，首先将指令拷贝到缓存中再执行.每个处 
理单元使用 32/16 bit 的寄存器来存储变量，操作指令不需要访存或者分支判断，所有的指令都是2个字节.此外， 
还有一个调度器辅助处理器在多个处理流之间进行切换.对于匹配引擎来说，切换仅仅需要更换一次当前的活 
动状态，而处理单元则需要保存好寄存器现场，然后读入新的现场.为了不减慢处理单元的速度，使用两组寄存 
器和相关部件，处理单元在完成当前任务的同时，另外一组设备中的现场可以被写入到缓存中或从缓存中恢复 
其他现场. 

文献 [37] 中提出了一种针对混合自动的逻辑架构和实现策略.在这个架构中， head - DFA 和所有的 tail-Fas 
( DFAs / NFAs ) 由两个线程分别执行.因为 head - DFA 始终处于活动状态,且每个输入字符都需要先经过它的处理， 
不带有 { n }” 等符号的正则表达式也会在 head _ DFA 中直接匹配成功，因此 head - DFA 部分必须是可快速访 
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问的.而 tail - FAs 则只有在边界状态被访问后才会被激活，并且在一段时间后会失去活动状态，因而可以被离线 
存放，待触发时再加载.将 head - DFA 和 tail - FA 存储在不同的内存区域，就可以用两个线程并行执行而不发生访 
存冲突. 

在这个架构中，还开辟了一个专门的内存区域，用来存放对混合自动机进行优化时使用的计数器.所有的 
DFA 都使用了文献 [20] 中所述的缩减技术，访问一个状态仅需要1次访存.匹配时，输入字符首先由 head - DFA 引 
擎进行处理,如果某个字符串在处理过程中访问到了边界状态，则将一个任务放入称为 activation FIFO 的队列 
中，这个任务本身包含了边界状态、字符在相应字符串中位置等信息, Tail - FA 的引擎可以通过读取这些信息来 
完成边界状态所激活的自动机的匹配流程. 

除了上述工作以外， Michela 等人还在文献 [38] 中提出了 Intel IXP 2800 NP 处理器下的 NFA 、 DFA 以及混 
合自动机的实现策略，并与两种通用处理器的结果进行了比较.这些策略的一个特 f 就是用 IXP 的多线程处理 
能力和异步内存操作来消除内存延迟，加快处理速度 . Hayeng 等人在文献 [39] 中提出了一个使用 GPU 实现 XFA 
的方案，利用面向数据流的处理特性来加快匹配效率. 


5总结和展望 


本文首先阐述了特征匹配的发展现状，说明了正则表达式作为特征描述语言的巨大 优势; 然后对正则表示 
在深度包检测中的匹配方式以及方法进行了介绍，并着重强调并分析了当前的匹配方法所面临的 挑战; 最后对 
近年来各个研究团体为了能使正则表达式真正实用化所做的工作及发展脉络进行了详细的分类阐述. 

不难看出，本文中介绍的所有方法都有一个共同的 特性: 以时间换空间.无论是增加索引表、引入缺省转换， 
还是使用各种标记来辅助记录匹配过程中的中间结果，其本质都是通过增加计算量来减少内存空间的使用.虽 

然可以借由各种架构来优化不同方法的效率，但在不远的将来，这 
些方法都将无法应对网络中攻击和应用协议种类不断增多所带来 
的挑战.因为从直观上来讲，精确字符串、安全类应用需要的规则 
以及正则表达式之间的关系可以用图17来表示，正则表达式的空 
间消耗问题正是由其本身的表达能力所带来的，它的描述能力过 
于强大，以至于它所能描述的问题空间在某些情况聲超过 f 安全 
类应用的范围.例如，符号在理论上可以是任意多个字符，但是 
在实际中的每次输入都是有确定长度的.表然，还有一些规则无法 
用正则表达式方便地表示，比如，协议的两个字段之间满足一定的 


Regular 

expression 


String 


Rule for 
network 
security 


Fig . 17 Relations of different rule 
description languages 

图 17 不同规则描述语言之间的关系 


代数计算关系 ( packet [ l ，2,3,4]= packet [5,6,7,8] 2 , 其中， packet [5,6,7,8] 和 packet [ l ，2,3,4] 表示4字节的整数)，如果一 
定要用正则表达式表示，则需要穷举2 32 种可能，所需的正则表达式将非常长，所以不适合用正则表达式表示. 

若要更好地解决复杂特征匹配问题，可以从以下两个方向进行 努力： 

(1) 进一步发展第3节中提出的 思想: 改进基于自动机的匹配模型，将自动机对逻辑关系的判断以及各种高 
效的精确串匹配结合起来，充分挖掘面向网络安全的应用中规则的特点和匹配行为的特点来发挥经典多模串 
匹配算法的高效性和自动机模型对复杂关系的判断能力.例如，面向网络安全的复杂规则主要是用来描述攻击 
行为的多个阶段或某个恶意代码的多个关联特征，因而具有分 段性; 而匹配动作在整个处理过程中则表现为一 
个频繁而短暂的过程，并且只有少数数据包才会命中特征，绝大多数都不会命中任何特征.这就使得快速的简单 
特征匹配和相对慢速的完整特征验证可以分别用不同的匹配模型来完成，从而形成内存需求和处理速度的 
平衡. 

(2) 寻找更好的规则描述方法来对安全问题进行恰当的描述.这种规则可能是正则表达式的一个子集的扩 
展，也可能是对字符串型规则的扩展，然后再找出针对这种特定规则的高效匹配方法.近年来，己经有研究人员 
在这方面进行了相关的工作，如曹条等人提出的布尔表达式 [4() ， 41] ，就是能力处于字符串和正则表达式之间的一 


种描述方法. 
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Abstract □ Fake block attack is one of the most serious threats to the security and integrity of the 
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mathematic model ， this paper systematically analyzes the key factors to effect the result of fake 
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Hash □ .□□□□□□□□□□□ Hash □ □ □ □ 
□ ，口 □□□□□□□□□ .□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□(□□a 

16KB)，DDDDDDDDDDDDDDDDDD , 


□ □□□□□□□□□ - 
□ □□□□□□ .□□□□□□□□□□□□. 

□ □□□□□□□□□□□□□，□□□□□□ 

□ □□□□□□□□□□□□□□□□□□ .□□ 

□ □□□□□□□□□□ -□□□□□□ Leecher 

□ □□□□□□□□□.□□ SHA 1 □□□□□□ 

□ □□□ .□□□□□□□□□□□□□□□□□ 

□ □□□□ 

□ □□□□□□□□□□□□□□□，□□□□□ 

□ □□□□□□□□□□□□□□□□□，□□□ 

□ □□□ .□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□ .□□□□□□□□□ 

□ □□□□□□□□. 

3QD□□□□□□□□□ 

□ □□□□□□□□□□□□ Bit Torrent □ 

□ □□□□□□□□□□□ .□□□□□□□□□ 
□□□□□□□□□□□□□DDDDDDD-D 
□□□□□□□□□□□□□□□□□□□□□□ 

□ □□ ，口 □□□□□□□□□□□□□□□□□ 

□ □□□□□□□ .□□□□□□□□□□□□□ 

□ □□□□□□.□□，□□□□□□□ .□□□□ 

□ □□□□□□□□ .□□□□□□□□□□□□ 

□ □□□□ .□□□□□□□□□□□□□□□□ 

□ □ Bit Torrent □□□□□□□□□□□□□□ 

□ □ □ [I7] .□□□□□□□□□□□□□□□□□ 

□ □□□□□□□ .□□□□□□□□□□□□□ 

□ □□□□□□□•□□□□□□□□□□□□□ 

□ .□□□□□□□□□□□□□ .□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□. 

□ □□□□□□□□ 

□ □□□□□□ Bit Torrent □□□□□□□□ 

□ □□□□□ F, FDDDD MDDDD 

□ .□□□□□□□□□□□□□□□』□□□□ 

□ □ / □ □ □ , F= Fi U U ...UFm, f, n F ； = 0 

for !. 句 □ c [] □□□□□.□ □ 

□ □□□□□□□□□□□□□□.□ 

□ □□□□□□□□□□□□□□□□□ N(t )，D 

① Cohen B. Incentives build robustness in Bit Torrent [On 
line]. http : // www.bittorrent.org/ bittorrentecon.pdf 
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□□□□□□□□□□□□□ 


2011 □ 


□ □□□□□□□□□ ^op. nnnnnnnnnn 


□ □ □ □ 〃delay □ □ □ □ □ 

□ □□□□□□ «conplete (t) /□口 


□ □ 
F 


N(t) 


Bu 


Bd 


Bmal 


3.1QD D □ D □ □ □ □ □ 

□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□.□□□□□a 

□□□□□□□□□□□□□□. 

□ □ I- □□□□□□ ■ ^delay = T / T，U U 

□ □ □ □. 

□ □□□□□□□□□□□□□□□□□□□ 
口 □ □, 尺 delay □□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□.□□□□□□□□DO 

D D 2. □□□□□□□□. ?Jcomplete (,)，□□ t 

□ □□□□□□□□□ ,N(t){] ?□□□□□□□ 


□ □□□ £，•□□□□□ &,□□□□□□□□□ 

□ □ 叩 □□□□□□□□□□□□.□□ □□口 

[]□□□□ .□□□□□□ Smal □ TV mal □□□□[] 

□ □□□□□ #□□□.□□□□□□□□□□□ 

□ .□□□□□□□□□□□□□□.□ ID □ D □ 


□ □ Hconplete ( t) — N ( t) ( bd ( t) / A1 ' s ). 

□ □□□□□□.□□□□□□□□□.□□a 
□□□□□□□□□.□□□□□□□□□□□a 
□□□□□□□□□□□. 

3.2DD □□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□ 

□ •□□□□□□□□□□□□□□□□□□□□ 

□ □ 3. 

□ □ 4. 

□ □□□□□□□□□□ □□□□□□□□ 

□ □□□□□□□□□[ID polluted H = polluted/ 

fenalD □□□□□□□□. 

nJDDDDDDDDDDDD tUUU , 

□□□□□□□□□. 


M 


T : 


M ■ 

bd 


(l) 


Ndt, 


⑵ □□□□□□□□ □ 呵 □□⑵ □ 

□ □□□□□□□□□ dN(t) =Adr- 

□ □□□□□□□□□.□ dN (t)/dt = 0，U □ 

□ (1 川 □ □ □ 

AT=A ■ T (2) 

□ □□□□ ⑵ □□□□□□□□ Little’s law ’ ls ’. 

f3) □□□□□□□□□□□□□□□□□ 

Xi=xl= ...= xj= ...= X7=N~/2 (3) 

□ □□□□□□□□.□□□□□□□□□□□[ID 


N~ 


F ： 


□ + 1- 2 
BTQ □□□□□□□□□□□□□□□□□□□ 
□ □ □ .□□□□□□□ ⑶. 

⑷ □□□□□□□□□□□□□□□□□ 

N mal 


D D D D P mai 


TVmal + N~/2 




□ □□□□□□ Pmal = ( pmul) 


A^mal 




iVmal + N~/2 

□ □□□□□□□□□□□□□□ 

^Vmal ^ 

ftnal = _ 1 hi 

Afmal + N /2 

⑸ □□□□□□□□□□□□□□□□□ 


(4) 


o 

o 

o 

o 

D D 
□ □ □ 

□ □ □ 

□ □ □ 
D D 


D 

D 


D 


D 

D 

D 

□ 

D 


□ 

D 

D 

D 

D 


D 

D 

D D n D D 
D D D D D D 
□ □□□□□□ 
D D D D D D D 


df3 


□ 

D 

D 

□ 

D 


□ 

D 

D 

□ 

D 

D 


□□口 

D D D 
D D D D D 
D D D D D 


D 

D 

D 

D 

D 

D 

D 

D 

□ 


□ 

□ □ 

□ □ 

□ □ 

D ， 

□□□□ 
Dln 口 

□ □□ 

□ □□ 
D o / 


D 

□ □ 


D 

D 

D 


D 

F 


D 

□ [ □ 
□□ □ 


D 


n 


□ □口 


□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

1 

□ 


□ □口 □口 

□ □ □ □ □ 
D D D D D 

□ Jr r 

D 八 


D 

□ 


D 

D 

□ □ 
□ □ 
F □ 

□ □ □ 
D D D 
□ □ □ □ 
D D D D 
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□□口口 圓 □□ 口□□口 


□ □□□□□□ 凡 pt = ( Popt ) 


，口 




AT/2 

A^mal + AT/2 

□□□□□□□□□□□□□□□□□ 

AT/2 w 

&pt — - bd 

Nm.1 + N/2 

⑹ □□□□□□□□□□□□□□□□□□ 
□ □ □ 

AT/2 u 

bd - —— ■ bd 

^ polluted N mai + _/V / 2 

bmal bmal 

一 f _ bd _ A^mal + N~/2 

/?delay — — 7 7 — - 

1 bd ~ polluted TV / 2 

(8) □□□□□□□□□ 

?!complete ( t) = N ( t) • ( fcpt/ M . □□口 口 

n^x + wn ' h 

— N~/2 M ■ 


( 6 ) 


(V 


N(t ) ⑻ 


□ mmrsjDDDDDDDDDDDDDD 
□ □□□.□□□□□□□□□□□□□□□□□ 
□ ⑽ □□□，□□□□□□□□□□ 

□ □□□□□□□□□□□ i _ □□□□□□ 

□ □□□□□□□□□□□□ B^/N(t).U □ □ 

□ □□□□□□□□□□□□□□•□□□□□□ 

□ □□□ .□□□□□□□□□□ (1 - U / w . □ □ 

□ □□□□□□□□□□□ (9m □□.□□□□□ 

□ □ (8) □ □ □. 

Smal N ( t) / 1 hi /r ., 

N(t) — Afmal + N(t)/2 W 1 7 

□□□□□□□□□□□□□□□□□□□□ 
□ □□□□.. 

⑴ □□□□□. □□⑼ □□□□□□□□ 〃 

□ □□□□□□□□□□□□. □□⑵ □ □『口 

□□□□□□□□□□□□□□. 

□ □□□□□□□□□□□□□□□ _□□□ 
□ .□□□□□□□□□□□□□□□□□. 

□ □□•□□□□□□□□□□□ Leechei. □ □ □ 


⑷ □□□□□. □□⑺ □□.□□□□□ □ 

□ •□□□□□□□.□□□□□□.□□□□□a 

□ □ □ □ □ .btq □□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□.□a 

□ □□□□□□□□□□□□□□□□□□□□， 
□ □□□□□□□□□. 

(6) Leecher BT □ □ 

□ □□□□□□□□□□□□□□ Tit-foi- Tat □ 

□ □□□□□ ,Leecher □□□□□□□□□□□ 

□ □□□□□□□ ， Legout [I9] D □□□□□□□ 
Leecher □□□□□□□□□□□□□□□□□□ 

□□□□□□□•□□□□□□□DDDDDDD 

□ □ .□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□. 

□ □□□□□□□□，□□□□□□□□□□ 

□ □ D □ .□□□□□□□□□□□□ .□□□□□ 

□ □□□□□□□□□□□□□□ .□□□□□□ 

□ □□□□□□ .□□□□□□□□ Hash □ □ □ 

□ □□□□□□□□□□，□□□□□□□□□□ 
□ □□□□ .□□□□□□□□□□. 

3. 3 □□ □ □ □ 

□□□□□□□□□btd□□□□□□□□ 

□ □□□□□□□□□□□□□□ .□□□□□□ 

□ □□□□ .□□□□□□□□□□□ btd D □ 

□ □□□□□□ .□□□□□□□□□□□□. 

□ □□□□□□ NS2 □□□□□□□ ,□ □ □ 

□ □□□□ BTDGDDDDDDD-DDD inet 

□ □ □ □ □ 10000 □ □ □，□ □ 5000 □□□□□□ 

□ 300 MB , □ □ 
256 KB[] □□，□□□□□□□ 16 KB □ □ □ ,Q D 

□ □ □ □ Tracker □□□ ,5 

□ □□□□□ ’□□□□□□□□□□□□□.□□ 

□ □□□□□□□□□□□□□□□□□□D-D 

□ □□□□□□□. 

□ □ I- □□ □ D □ □ □ □ □ D □ A =a2，n □ 

□ □ □ 200 Kbps，□ □ □ □ □ □ 200 Kbps. □ □ □ □ 

□ □□□ W=1，W = 3[] W= 16 □□□□□□□□, 

□ □ □ 100 sQ ID □ 3. 
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□□□□□□□□□□□□□ 


2011 □ 


oooooooooooooooooooo 

LOOmomOLOOLnoinomOLOOLOomo 

时间 /s 

□ 4 0= 10 □□□□□□□□□□ 

□ □ 2. □□ □ □ □ D A = 0. 4,W = i，D □ □ □ 

□ 200 Kbps .□□□□□□□□□□ 60 Mbps，□ 口 

□ □ □ □ 300Q500 □ □ 1000 □，□□□□□□□□ 

□ 50 sDQDDDD.□□□□□□ 5. 

250, 



时间 /s 


□ 5_ □□□□□□□□□□ □ 

□ □ 2D □□□□□□□□□□□□□□□□ 

□ □ □ □，□□□□□ 300 □，□□□□□□□□□ 

□ □ ⑼ □ □□ 

□ □□ 600 □,□□□□□□□□□□□(«□□ 
□ ’ ，□□□□□□□□. 

□ □□□□□ 1000□，□□□□□□□ (9)D D □. 

□ □□□□□□□□□□□□□ ,□□□□□□□ 

□ □□ 600 

□ □□□□□□□ .□□□□□□□□□□□□□ 
□ □□□□. 

□ □□□□□□□□□□□□□□□ P2PD 

□ □□□□□□□□□□□□ .□□□□□□□□ 


口 □□□□□□□□□□□，□□□□□ 1500 s. □ 

□ □□□□□ 300，□□□□□□□□□□□，□□ 

□ □ 2 D 3間間 ；□□□□□□□□□□□□ 

□ □ 2DDDDDD 4Q 5D D □ □ .□□□□□ 

□ D looo□□□□□ 7DDDDDD.DDD (7) 

□ □□□□.□□ 4DDDDDDDDDDDD 
□□□□□□□□□□□□□□□□□□• 


-^—^=300 
- —N bm1 =600 

7. —N 一 =1000 


w 

o oooooooooooooo 
ooooooooooooooo 

f-H f-H «-H I—• CVJ CV] CVJ C>J C>3 

时间 /s 

1 0)=1 时攻击对共享网络的影响 

— 〜“=300 

4 —7^=600 


2 

0 

8 

6 

4 • 

ooooooooooooooo 

OOOOOOOOOOOOOOO 

时间 /s 

3 2 U)=3 时攻击对共享网络的影响 

■ 

. 

- 

- 

- 

. 



ooooooooooooooo 

ooooooooooooooo 

fHCOLO 卜 Oi*—*POU5 卜 Oi«—«<Ol/5t"-CT5 

时间 /s 

I 3 <0=16 时攻击对共享网络的影响 

□ □□□□□□□□□ ⑼, □□□□□ 

□ □□□□□. W =1 □□間 ，□□□ 

□ □□□□□□□□ .□□□□□□□ ; 

□ □□□□□□□□□□□ 2D □ 

□ .□□□□□□□□□□□□□.□□ 

□ □□□□.□□□ 1 □ D □ □ □ □ 

□ □□□□.□□ 2，□□□□□□□ 3 
600 □□□□□□□□□□□□□□□ 

□ 16 □ (□ 

]□□□□□□□□□□□□□□□□ 

□ □□□□□□ . 


— N^=300 
——N - =600 
-^-N^=1000 



o o o o 
0 5 0 5 
2 11 

CQ w /_«^ 獬 u-— 



o o o o o o 

0 5 0 5 0 5 
3 2 2 1 1 

1 链祝餺 K- 




Isb sl 资攸鶬 K- M— 


B 


111 




«<- 嗞垆链慽镅 K--csool 


litel 堪択 aaM*ool 


□ ddddddddd[o 

DDDDDDDDD D^ DD 
000000000 0)^00 
_u I — I I — I I — I I — I I — I I — I I — I I —- I —- 3 
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图 7 SmartHash 算法网络整体测试结果 
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图 6 SmartHash 算法单点测试结果 
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Background 

P2P systems have grown in importance over the last few 
years as an attractive way to mobilize the resources of inter¬ 
net users. Security is an essential component of any computer 


system, and it is especially relevant for P2P systems. Since 
P2P systems lack the tools available to a centralized adminis¬ 
trator ,it can be much more difficult to implement security 
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protections on a deployed P2P system. Malicious users can 
actively play the role of insiders. How to build a secure peer 
to-peer system is a challenging topic for the researches. This 
research mainly focus on a special attack , fake block attack , 
over the famous Bit Torrent systems. Fake block attack aims 
to prolong the downloading time of the sharing files in some 
Bit Torrent sharing swarms , wastes the downloading band- 
widths of the victim users , and then significantly damages 
the dissemination services of the whole Bit Torrent system. 
Previous researches only focused on the passive measurement 
and did not give a quantitative evaluation of the attacking re¬ 
sult. The traditional countermeasures against fake block at¬ 
tack mainly including black-list method , reputation system 
and heuristics based method. All these approaches are pas¬ 
sive defending methods , they do not catch the internal cause 
of the attack, and cannot eliminate the damage of fake block 
attack thoroughly. 


To grasp the essence of fake block attack as well as to 
eliminate its threat, this paper proposes a stochastic math¬ 
ematic model of the Bit Torrent system with the impact of 
fake block attack, systematically analyzes the key factors to 
effect the result of the attack, and then calculates a theoreti¬ 
cal upper bound of the attacking result under the given cir¬ 
cumstances. Then this paper give a quantitative evaluation of 
the attacking result by real world experiments under the un¬ 
controlled internet environment. Finally, this paper gives a 
two Hash value based algorithm to enhance the robustness of 
Bit Torrent content integrity checking progress and fight 
against fake block attack. The result shows this method can 
effectively eliminate the threat of fake block attack. 

The research is partly supported by the National Basic 
Research Program (973 Program) of China (2007CB311101), 
National High Technology Research and Development Program 
(863 Program) of China (2007AA010503,2009AA01^37). 
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late some isolated vulnerabilities to analyze the security risk of networks. Moreover, NNC adds 
privilege relations between network nodes on the basis of the connectivity of protocol layers so that 
using NNC also helps to improve the accuracy of detecting network vulnerabilities and attacks. 

Keywords network security； network risk assessment； vulnerability analysis; network node 
correlation： network attack 
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□ 3 NNC □□□□□□□ 


3 □□□□□□ 

□ □□□•□□□□□□ NNC □ □ □ □ □ □ 

□ □□□□□□□□□□□■□ 4Q □ □ □ □ □ □ 

□ □□□□□□，□□ □□ □□ □□ PCD，D 

□ S, c, 

□□□□□□□: 

(!)□□□□□□□□□：□□□□□□□□ 

□ □ □ □ 5 □ WWW 

□□□□□□□□□□□□□□□□，□□□□□ 

□□□□□□□□□• 

( 2 ) □□□□□□□□□□□□□□□，□□ 

□ □ □□ ■ 

(3) □口 B [] Rsh( remote shell) 口 □□□□£* 

□ □□□□□□，□□□ 

□ □□□□□□ ^ □ 0 shell . 

(4) Q □ 5D WWW □ □□□□□ CD □ □ 

Rsh DDD Snmp □□□□□□ B. 

( 5) □ □ S □ S nmp □□□□□□ VuL 1 ： Q □ 

□ □□□□□□□□；□□£>□□□□ Vul. 2 ： □ 

□ □□□□□，□□□□□□□□□□□□□□;□ 
□□□□□□□□□. 



□ 4 □□□□□□□□□ 


3. 1 NNCQ □ □ 

□ □□□□□□□□，□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□ NNC. □ □， 

□ □□□□□□□□ □□ □ □ 5, C,DQ □□ 

□ □□□□□□□□□□，□□□□□□□□□□ 

□ □□□，□□□□□□□□□□□□□□□□□， 

□ □，□□□□□□□□ NNC □□: 

<A, *, B, www, 1, fV4)<A, *, D, *, 1, fV4) 

<B, *, C, *, 1, WaXB, *, D, *, 1, W4> 

<C, *, B, *, 1, WaXC, *, D, *, 1, Wa} 

<D, *, B, *, 1, mXD, * ， C, * ， 1 ， JVa} 

□ □，□□□□□ B.CU Z) □□ □□□□□□ 

□ □ NNC □ WWW □ □ 

□ □ □ c D □□□□□□□'□□ (B, WWW, G 

•0, □□□□□，□□ n RSfh 

//www.cnRi.net 


( 6 ) □□□□□□ □□□□□□ 
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□ □□□□□□□□□□□□■ □ 3D □ □ NNC 

□ □□□□□□，□□，NNCBQ □ □ □ NNC □ □ 

□ □■□□□□□□□□□□□□□：□□□□□□ 
□ □□□□□□□□□□□，□□□□□□□□ 
NNCQ □ □□□□□□□□□□□□□，□□□□ 


□ □ 4Q □□□□□□□□□□□□□□，□□□ 

□ □□□，□□□□□□□□□□□□□□□□□ 
□ □□□□□，□□□ NNCB ，□□□□□、 □□口 
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□ Snmp □ □ □ □ ft 0 0 □ 〈 £> ， root, B, rsh, 1, 
Wi}, (D, root, B, snmp, - , JVs). □□口 NNC □ ， 

“ * ，，口 □ 

□ □，□□□□□□ NNC □□□□□□□.□ 

□ NNCQ □ 

<A, *, B, www, 1, ff4> (No) 

<A, *, D, *, 1, W4> (Ni) 

{B, www, C, oracle ， - ， FTs) (Nz) 

<B, *, D, *, 1, 

<B, *, C, */oracle, 1, W*> 

< c , *, b , *, l , my 

<C, *, D, *, 1, fV4> 

(D, root, B, rsh, 1, Wi} (N 3 ) 

(,D, root, B, snmp, -, Ws} (N 4 ) 

(D, *, B ， */rsh ： snmp, 1, W 

<D, *, C, *, 1, W4> 

□ □□□“* /root ： snmp” 口 □□□□□□ root □ 
snmp □□□□□□□. 

3-2 □ □ □ □ 

□ □，□□□□□□□□□□□□□，□□□□ 

□ □□□□□□□□□□□□，□□□□□□□□ 

□ NNC □□□□□，□□□□□□□□□□□□ 

□ □□□□□□ NNC □□□□□□□，□□□□ 

□ □□□□□□□□□□□□，□□ 5Q □，□ □ □ 

□ □□、□□□□，□□□□□□□ NNCQ □. 

(!)□□□□□□□ 

□ □ Nessus 、 ISS ① □□□□□□□□□□□ 

□ □□□□□□□□□□，□□□□□□□□□，□ 
□ □□□□□□□□□□□□□□■□□□□□ 


□□□□□□□□□□□□□□□□□：□□□□ 

D □ Yul. 1 D Vul. ZODDDDDDDD 50 

Snmp □□，□□□□ Vul. 1 0 □ □ 5 □ □ □ Vul. 2 

□ □□，□□□□□ A Ni, D □ 5( a) 

□□□□□□□□. 

(2) D □□□□□□□ 

□ □L4j □□□□□□，□□□□□ Nessus 口 

□□□□□□□，□□□□□□□□□□□□□□ 

□ □□：□□□□□□□□□ Vul. 2 □ □£>□□□ 

□ □□，□□□□□□ Vul. IQ □ SQ □ □ □ □， 

□ □□□□ CD □□，□□□□□□□□ C，D □ □ 

□ □ A Ni Z) N 4 S, □ □ 5( !>)□□，□□□□□□ 

□ □□□□• 

(3) D □ NNCQ □ □ □ □ 

□ □□□□□□ NNC □□□□□□□□□□ 

□ ：□□□□ NNC □，□□□□□□□□□□□□ 

□ □□□□□，□□□□□ NNCQ □ □ □ □ □ □ 

□ □ VuL2DDDDDDDDDD /)，□□□□□ 

□ □ □ □ □ -D □ root □□，□□□□□□□□□□ 
D □ root □□，□□□ N3 □□□，□□□□□□□ 

□ root □□，□□□□□□□□□□□□ WWW 

□ □ □ □ Oracle □□□□□□，□□，□□ NC □ 

Oracle N4 □□□□□□□□□ 

□ 5, □ 0 □ □ □ Vul. lDD'D □□□□□ □□ 

□ □□□□□，□□□□□□□』()□ NiQ □ □ □ 

□ □□□，□□□□ Oracle □□□ □□□，□□□ 

□ □ WWW 

□ ：□□□□□ Ni£> Ns5 N 2 CD ^ Ni £> N45, 

□ □ 5(c)D □□□□□□□□□□□. 




(a) 评估方法 1 (b) 评估方法 2 (c) 评估方法 3 

□ 5 □□□□□□□□□□□□□□ 


□ □ NNC □□□□□□□□□□□ A[] CU □□□□□□□□□□，□□□□□□□□□□□ 

□ □□□□□，□□□□□□□□□□□□□□□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□□，□□□□□□□□□□□□□□□□□， □，□□□□□□□□□□□□□，□□，□□□□ 


□ □□□□□，NNC □□□□□□□□□□□□□ 


① Internet Security Systems. System Scanner, http ： / /www. 
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□ □ 間 ，□□□□□ nnc, □ □□□□□□□□ 

□ □□□□□.□□，□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□a- 

4 □ □ 

□ □□□□ NNC □□□□□□□□□□□ 

□ □ □ □ □ NNCQ □□□，□□□□□ NNC □ □ 

□ □□，□□□□□□□□□□□□□，□□□ 

NNCQ □ □□□□□□□□□□□□.□□□□□ 

□ □□□□，NNC □□□□□□ :(1) □ □ NNC □ 

□□□□□□□□□□□□□，□□□□□□□□ 

□ □ □ □ ;(2)NNC □□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□，□□□□□ 

□ □□□□□□□□□□□□；( 3) □□□□□□ 

□ □□□□□□□□□□□，□□□□□、□□□□ 
□□□□□□□□□□□□□□• 


□ □ □ □ 
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摘 要： 无线网络通信将极大提高智能交通的安全和效率，在应用和协议设计中需要保障安全属性。介绍了 VANETs 中安全主要 
研究内容和研究现状，对近年来车辆定位、安全路由、身份管理、隐私保护、安全应用和入侵检測等方面取得的研究成果进行分析和 
总结 . 最后设计了一个支持伪名机制的层次安全 架构。 
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Abstract: Wireless network communications in VANETs greatly improves safety and efficiency of Intelligent Transportation System, se¬ 
curity attributes should be guaranteed in its application and protocol design. Major research areas and state of art are introduced and recent 
researchs of secure positioning, secure routing, identity management, privacy protection, application safety and intrusion detection are ana¬ 
lyzed in this paper. Finally the paper introduces some security architectures supporting pseudonym. 
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o 引言 

随着信息化水平的提高，交通智能化程度的日益 提高。 
成熟的智能交通可以应用于撞车预警，协同驾驶，交通流量 
优化和自动付费服务等方面，可极大改善行驶安全，提高交 
通效率，并可增加驾驶体验。 

智能交通系统的通信包括车辆间通信以及车辆与道路 
设施间通信无线标准的完善，上层协议效率的提高，以及协 
议体系的安全性，会改善交通网络的质量，并保障驾驶人员 
的人身安全。交通领域的无线网络研究日益增多，但大部分 
研究則集中于以车辆为节点的 ad hoc 无线网络 （ VANETs , 
Vehicular Ad hoc Networks ) 的研究.作为贯穿智能交通网 
络研究中的一个重要领域一智能交通无线网络的安全性研 
究，近年来呈现出快速上升趋势。对交通网络的安全性进行 
深入了解，分析 VANETs 网络中存在的攻击和威胁，设计安 
全的协议和应用，防范各神侵犯安全属性的攻击，有效管理 
网络中的车辆，正为各界所关心，成为其所注目的重要问題 
之一 ：学术 界集中于安全无线协议本身的设计，车辆制造商 
集中于关注用户个人隐私和人身安全的无线终端应用，而国 
家政府部门则重视交通网络的管理和安全事件的盟測。 

研究 VANETs 的安全，必须首先了解 VANETs 的结构 
特性，如 VANETs 与普通 ad hot . 网络的异同，然后借鉴 
MANETs 的研究成果，改进路由策略、认证机制等以适应 
VANETs 的需求:，本文试图通过对 VANETs 的结构分析和对 
2012年 VANETs 安全方面研究进展的总结，使更多的研究 


人员关注 VANETs 及其安全问題，了解该研究领域的进展， 
提出创新思想，实现理论突破 

本文第1部分介绍了智能交通无线网络，第2部分分 
别对 VANETs 中的安全机制，如车辆定位、安全路由、身份 
管理、隐私保护、安全应用和入侵检测等方面进行分析和讨 
论。第3部分介绍了 VANETs 中安全框架的设计，并给出了 
一个支持伪名机制的架构 = ,最后对上述工作做以总结，对有 
待解决的问題和未来的研究重点提出前瞻性的建议。 

1 智能交通无线网络安全的研究进展 

在智能交通的环境中，每辆汽车均为一个节点，节点相 
连组成 a(l ho [.无线网络 VANETs : DSRC (Dedicated Short 
Range communication ) ，即 WAVE (Wireless Access for the 
Vehicular Environment ) > 是为车辆和路面设施通信的中短 
距离通信协议，通信距离为1 000米以内，传输速度为6~ 
27兆。1999年，美国联邦通信委员会为其分配了 5.850-5. 
925 GHz 的频段。就费用和效率而言， DSRC 在交通网络中的 
节点间通信中最具应用前景。可以预期， DSRC 将会在智能 
交通环境下成为短距离无线通信中的标准。 

在 IEEE 802.11 协议族的基础上 .IEEE 802.1 lp WA ¬ 
VE 工作组正在制定适合交通领域的无线标准 IEEE 802. 
11 P .可支持高速行驶的车辆与设施之间的通信 。 IEEE 1609 
协议族定义了交通网络架构，通信模型，管理结构，安全机 
制和物理接入。其中的 IEEE 1609.2 标准定义了应用和管 
理服务安全，防止窃听，伪造等其他攻击。现今的发展表明. 
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IEEE 802. 丨 lp 将作为 DSRC 的基础，而 IEEE 1609将成为 
DSRC 的上层协议架构,> 

在商业上，欧洲的奥迪、宝马、免莱斯勒、雷诺和大众等 
厂商组成了 Car 2 Car Communication Consortium ，共同升发交 
通无线网络的工业标准，统一无线通信的接 o 和协议 。 N EC 
为其推出了升发包，为车辆和设施通信提供了协议栈 实现。 
在管理上，美国交通部已经升始布设实验性质的设施 VI [。而 
在学术领域，美国、欧洲和日本均升展了大量研究，如 VSC 、 
NoW . eSafety 等项目的创立和问世。在国外 . VANETs 因其具 
有较好的前景，已引起广泛关注，但国内研究较少。 

1.1 VANETs 的模型 

未来的交通网络 VANETs 体系架构存在三类实体，车 
载设备 OBU ( On-Board Unit ) 、路边设施 RSU ( Road-Side 
Unit ) 和服务应用设施 SAF (Service Application Facili ¬ 
ties ) ，线下还有管理机构，如图 1 所示。 



图 1 VANETs 的网络体系架构 

(1) 0 BU , 裝载于车辆上的设备，包括处理器、输入输 
出设备和传感器等 3 OBU 带有 GPS 设备，可获知地理位置 
信息，定时广播其行驶信息 Beacon .如经纬度、速度和方向 
等。在本文中 ， OBU , 车辆和节点的意义相同。 

(2) RSU , 分布在路边的设施。通过以太网或 WiMax 接 
入 Internet 可提供认征、网络接入和入侵检测等服务。 

(3) SAF 包括认证设施和应用服务设施。认证设施有 
TA (Trusted Authority ) 和身份公升机构 . TA 管理密钥，身 
份公升机构由用户的签名回溯其身份。 

此外还有一个行政机构，可定期检測车辆软硬件和证书 
更新，用法律手段保障车辆管理和实现对车辆攻击的惩罚 

在定义了 VANETs 信任模型的大部分研究中，给出了 
分层的信任关系。 TA 和身份公升机构假定是不可攻破的； 
RSU 虽不容易被攻破，但可能存在小部分 RSU 被攻击者控 
制，管理机构会定时检查 RSU , 恢复异常 RSU ；0 BU 是不可 
信的，随时可能被攻破。 

1.2 VANETs 的特点和攻击类型 

本质上 ， VANETs 是 MANETs (Mobile Ad hoc Networ ¬ 
ks ) 的一类特殊应用，保留了 MANETs 的属性，故 VANETs 
的特点 M 有 ：高速 移动性，频繁拓扑变化；极度时间敏感、短 
连接无 握手； 拓扑和通信方向限制；大规模、异构性和可扩 
展性； 通信模型、设施支持和管理控制以及法律规章支持 
等。正因为 VANETs 是 MANETs 的一类子集，故也顺承了其 


缺陷。对 MANETs 的攻击.也同样适用于 VANETs 。 

从攻击者的类型来分，可以将 VANETs 中的攻击分为 
主动攻击和被动 攻击； 从行为来分，可分为如下几类：非法接 
入、恶意路由、伪裝顶替、侵犯隐私、控制硬件和拒绝服 务等。 
不同攻击行为对应不同的攻击者，常见的攻击者有 两类： 

(1) 非恶意攻击者攻击通常不会引起严重后果，如企 
图破坏规则来获得不正当收益的贪心 车主； 试图截获邻居 
节点的消息来寻找有用信息的窥 探者； 熟悉车载设备和软 
件的弱点.可发送引发恶意指令的制造商内部人员；收集车 
辆数据，研究车主的习惯.骚扰用户的商业公司和单纯为乐 
趣而扰乱交通秩序的恶作 剧者： 

(2) 恶意攻击者.如犯罪分子或恐怖分子。目标是攻击 
车辆或各类设施，一般已攻破某些节点，或拥有某些资源， 
这类攻击者发动的攻击更容易成功，危害更大，但是发生频 
率比上述其他几类攻击者低很多。 

2技术挑战和问题分析 

在 VANETs 中的安全问題众多，可按攻击进行分类。首 
先，攻击者通过控制硬件，谎报自身的位置或伪造虛假节 
点，故需确定车辆真实位置；即使节点的位置真实，也可被 
伪裝成其他节点，防范这类攻击，则需要建立身份认证体 
系： 现有的证书管理体系使用单一固定的身份，攻击者通过 
对捕获数据包中的身份标识进行分析以发现车辆的行综， 
确定车主的真实身份，故身份认证中需引入匿名 支持； 同 
时，上层应用程序也需考虑下层身份认证中匿名需求带来 
的影响，否则，攻击者可以通过对上层协议的标志进行分析 
来连接数据包。此外，节点间是短距通信，需要中间节点中 
继数据，恶意节点就可能抛弃或选择性转发消息，故消息路 
由的安全性就必须得到切实 保证； 当攻击者为合法的内部 
成员时，上述的安全机制很难见效，此时，入侵检测則是较 
好的方法。 

上述攻击的条件依次增强时，对应的研究内容可相应 
划分为车辆定位、安全路由、身份管理、隐私保护、安全应用 
和入侵检测等方面.本文将逐一展升并加以介绍。 

2.1 车辆定位 

车辆的精确定位是 VANETs 安全通信的基础 。 MANETs 
中的 SPA 车辆定位 W 可无需借助路面设施而进行半自治的 
定位，但是没有考虑到安全需求。安全定位方法如下。 

(1) 卫星定位和车载雷达 

车辆可依靠自身硬件进行定位。如在接收到 GPS 信号 
之后，定时通过行驶信息发送，其他车辆接收后可确定其位 
置但 GPS 易受攻击，例如堵塞信号或被伪造信号源；另外 
GPS 是被动的，节点发送的行驶信息是通过 TPD 计算得来， 
如果 TPD 被攻破，那么行驶信息就不再可信。此外 ，0 BU 可 
通过车我的雷达设备，使用距离边界 （Distance Bounding ) 
感知对方车辆的位置范围但这种方法却是不安全的.原因 
是雷达只能被动地根据从消息请求到响应的时间差来估计 
双方距离，却不能获得对方所处方 向,， 

(2) 多边定位 （ Multilateration ) 
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由于通信距离的限制可保证车辆处于某个探測点的范 
围内，三个探测点形成的范围区间可限制车辆的二维位 
置，四个探測点可限制车辆的三维位置。多边定位实现多个 
探測点的协调与协作，使得车辆的位置判断更为精确，即使 
被验证方有意延迟消息响应以伪造距离，但是总会存在其 
他一点能检測到与该车的距离过短。这样就保证了车辆的 
假信息一定能被检測出来。 

(3) 行踪分析 

在文献 [4] 中，利用车辆历史记录进行分析。先恨据雷达 
获得的数据和邻居报告的消息，计算余弦相似度，以过滤虚 
假的信息，之后建立对方车辆的行驶轨迹，从而防止恶意节 
点的欺骗和攻击。如果恨据历史记录计算出来的位置在道 
路之外，或是在合理的范围之外的，都应该拒绝该车。 

Sybil 攻击是 VANETs 中一种重要的攻击手段，是指一 
个节点构造多个网络中的虛假节点，从而虛假节点可造成 
例如交通拥塞等假象，或伪造车祸，亦可发动 DoS 攻击。如 
果没有一个全局性的认证机构， Sybil 攻击就总是可能发生 
的。通常.在无线传感器网络中，防范 Sybil 攻击的方法有无 
线电资源測试、注册、预设传播模型和位置验证。无线电资 
源测试中需假设节点不能同时收发数据，这与 VANET 沖 
突，故不可行。文献 [2] 提出了两种检测方法 PASID 和 
PASID-GD. 其思路是 Sybil 攻击者很大概率会同时出现或 
消失，故可记录其他节点身份并建立相应档案，在每对节点 
之间计算亲和度函数，即能检测到攻击者 ； 文献 [5] 使用 VP- 
KI 认证机制来解决 Sybil 攻击，但恶意节点可能获得多个 
身份，且严格的注册可能涉及个人隐私问題。 

位置隐私也是安全定位中需要注意的一类问題，:，车辆 
的行综和车主的身份联系密切，车主不希望被定位和 跟踪； 
具体地说，对于任意两个签名，只有极小的概率能判定其出 
自同一辆车 ，该 特性称为不可连接性 （ Unlinkability) 。 这就 
使得无法从消息直接推测出消息发送方的真实身份，与可 
验证定位沖突 。为了 实现在认证性和隐私性间的平衡，则需 
设计一神保留隐私的定位 机制： 这种机制可以经受全局被 
动监听者的分析而可确保不会暴露车主的行踪。实现不可 
连接性的最直接方法是引入伪名代替真实身份，并不定时 
更新车辆的伪名。当车辆 M 的伪名由 A 更改到 B , 意味着 
网络中消失了车辆 A , 增加了车辆 B 。 如此，一方面 M 的位 
置能被确认，同时也不会泄露其真实身份。相关内容在隐私 
保护中具体介绍。 

2.2 安全路由 

遇到紧急情况或拥塞时，车辆会发 送警告 ，中继节点会 
将相关消息转发到后面的车辆，避免损 失； 但若因攻击或异 
常引发路由信息出错，上层协 i 义也会随之出现异常，安全路 
由则可为整个应用提供重要的保证。安全路由不仅能够保 
证路由信息的可靠性、完整性和有效性，还能够保证数据的 
安全性和隐私性。 

常见的 VANETs 路由攻击与 MANETs 类似，有伪造、修 
改或重放路由信息、选择性的路由、 Sinkliole 攻击、 Sybil 攻 
击和伪造 Ack 等： 但由于 VANETs 中车辆速度很快，网络拓 


扑变化迅速.加上系统自治分布，导致防范路由攻击存在很 
大的挑战。 

VANETs 中的传播模型可分为基于位置转发 （ PBF ) 和 
基于内容转发 （ CBF ) 两神，前者是点对点的单播.而后者是 
广播。考虑到 VANETs 中快速变化的拓扑, CBF 的可靠性更 
高，因其可传播紧急消息。文献阆基于 AODC 提出了 AODC - 
SE C 协议，将通过源认证和邻居认证的路由信息导入路由数 
据库中，并引入了 PK 1 证书系统和基于证书的散列链签名， 
以保证消息传播经过的是可靠的路由，其缺点是路由发现过 
久，且不支持 Geocast ;同时存在可观的证书冗余。 

2.3 身份管理 

身份和密钥的管理是具有完备可信认证的智能交通应 
用中最基础的保障，管理机制因之成为一个重要研究方向。 
一方面需要建立完善的身份管理架构，另一方面要提供快 
速身份撤销机制 

首先，不同认证深度需要多个 OBU 身份标识。车辆在 
出厂之前，汽车制造商会为每辆车分配一个独一无二的标 
识，用作永久的身份凭证。仅依靠厂商实现可信身份是远远 
不够的，还需一个国家或区域性质的行政管理机构 TA , 但 
因各地法律法规对隐私的规定各异，可能存在不同的密钥 
管理策略。文献[5】中的认证设施 VPKI 将行政机构和车辆 
厂商作为 TA 颁发证书，彼此提供交叉认证。在使用中，车 
辆定时（如每年）在行政管理机构登记，分配一个证书，称 
为电子牌照。电子牌照可以方便驾驶，追查事故原因，但长 
时间采用固定证书，很容易被攻破。解决方法有两个 ：使用 
一个证书集合（约43 800个证书），随机选取一个证书作 
为该时间槽的临时身份，当证书失效或者异常时换下一个 
证书％这种方法的缺点在于，如果车辆的身份被撤销，证书 
集合所有的证书都需设为无效，随着撤销证书数量的增加， 
CRL 会变得极其庞大，导致证书查询时间过长。另一神设计 
延续使用单一证书的思路， RSU 检查经过车辆的电子牌照 
后为其分配一个临时身份。两神方案中使用的临时身份一 
般称为伪名，这神永久身份-电子牌照-伪名的层次身份鉴 
别方式可防止身份攻击。详细的身份隐私将在下节中介绍, 3 

然而，攻击者可能取出預裝伪名集合的若干证书，同时 
作为多个伪名来发动 Sybil 攻击。文献 [8] 提出了 一神匿名隐 
藏的防止 Sybil 攻击的方案 P 2 DAP 。 

首先 ， TA —次产生足够大的伪名集合，使用粗顆粒散 
列函数和私钥将集合划分为若干小集合，进而用细颗粒散 
列函数和私钥将小集合划分为若干个更小集合 。粗 /細颗粒 
密钥分发给 RSU 以減轻认证机构的负担，两密钥可以扩展 
为集合，以減少被攻破的可能。 

其次，公钥认证机制中，被撤销的证书信息需由 TA 及 
时发布，但 RSU 的部署并不完善.车辆很难及时获得 CRL 
信息，如何使车辆尽快获知撤销证书列表是一个挑战。 

针对 CRL 过大和 TA 单点失效的问題，文献 [9] 提出在 
TA 下分布大量认证服务器 （ ICS ) ,共同构成认证机构。 
0 BU 产生伪名，需要至少 * 个 ICS 联合为其签名；而在身份 
撤销时，也至少需要/个 ICS 才能完成操作。该方案需要多 
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个认证点来公升匿名信息，且所有认证与信息公升均在服 
务器端完成 ， OBU 无需实时更新 CRL , 节省了空间和带宽 
升销。但文中并未给出无 RSU 的区域 OBU 应如何识別失 
效的节点。 

2.4 隐私保护 

VANETs 中的重要挑战是可认证性 ( Authentication ) ■ 
不可否认性 （ Non - repudiation ) 与隐私性 （ Privacy ) 之间的 
平衡，在其后的研究提出的条件隐私保留认证 （Conditional 
Privacy Preserved Authentication ) 中又增加了可跟踪性，这 
几个属性之间的乎衡结果，应同时满足车主，认证机构和管 
理机构的需求。作为车主，希望隐私数据不会泄露，同时希 
望与之通信的车辆是合法的；作为认证机构，希望所有车辆 
得到 认证； 而作为管理机构，能根据一条签名消息跟踪到相 
关车辆，隐私性，认從性和可跟踪性 （ Traceability ) ，三者之 
间是相互矛盾的，需要做以科学、合理的杈衡一神方法是将 
管理机构分为前台机构和后台机构，前者为 OBU , 不能获得 
车辆的身份，而后者为 TA , 可以与车辆建立信任关系。从而 
普通验证者和前台管理机构通过认证机构确认对方的合法 
性，但却不能获得对方的真实 身份； 而同时，后台管理机构又 
可以根据某条消息回溯到发送方，这称为条件隐私保留认 
证。节点隐私包括位置隐私和身份隐私，下面分别介绍。 
2.4.1 身份隐私 

节点不希望其证书泄露真实身份，故通过伪名隐藏节 
点的真实身份。但预置的匿名集需巨大的空间升销并产生 
增长过快的 CRL , 现研究一般基于加密算法动态获得某时 
刻的伪名。常用的算法有两神.分别是基于身份密码学 
(IDC > Identity-Based Cryptography ) 和组签名 （ GS ， Group 
Signature ) ,：： 

(1) 基于身份密码学是一类特殊的不对称加密方 
法。发送者用接收者的标识代替公钥进行加密，接收者从 
TA 中获得私钥进行解密,，该方法节省存储公钥空间.也无 
需额外的通信升销，是一种很好的加密算法。 

(2) 组签名是指存在一组节点的集合，集合外的节点 
只能识别某一消息出自该集合内的某一节点，但是无法确 
定出自具体的哪个节点，而组的管理者可找到相关的签名 
节点。组节点拥有随机地址和组密钥，随机地址用于恨据消 
息跟踪到组领导，而组密钥可从组领导跟踪到具体的节点， 
随机地址的设置使得使外部观察者无法定位到准确的个体 
节点" I 。 

由于 VANETs 的拓扑快速变换，故组的建立和维护很 
难，文献 [1] 提出了基于组的模式，包括组加入、组建立、组离 
升和组操作。文献 [11] 将地理上的区域映射为组，组领导在 
区域中心，组与组之间重佥，重叠区域内的节点充当中继节 
点。组的范围分为全局组和局部组，前者由中心身份管理机 
构完成组的分配，后者由 RSU 控制或由车辆自身进行协 
作。而文献 [12] 采用短组签名模式，使用双线性映射实现，通 
信升销小。 

2.4.2 位置隐私 

位罝隐私和身份隐私是相关的。频繁变换伪名可隐藏 


车辆的行踪，但亦有漏洞，因为车辆发送的行驶消息中包括 
有位置、方向和速度等信息，即使更换了伪名，攻击者也能 
估计出车辆的大致方向，从而判断伪名的更换情况。反之， 
攻击者也可使用统计的方法，将车辆的伪名连接起来，从而 
建立车辆的行驶轨迹 

攻击者通过分析节点收发的消息，可通过两种方法来 
确定其位置 ：一为 简单跟踪，即每个车辆收发消息的概率相 
同，随机选择 车辆； 另一种为关联跟踪，即通过速度、方向预 
测车辆下一时间的位置在节点密集时，关联跟踪的效果好 
于简单跟踪，原因是协同驾驶的情况下，车辆的行驶信息很 
精确，车辆在短时间内不会改变方向和速度，全局的攻击者 
还可以根据附加信息跟踪车辆的匿名熵，:. 

局部攻击者总有某些区域无法实现监听，该区域称为 
混合区域 （ mix - zone ) " 3 ' 0 车辆更换伪名的频率的最优值即 
取决于混合区域，而混合区域又取决于攻击者布设的监听 
区域，此神依赖性还需进一步研究。如果发送者距接收者很 
远，那么其位置信息可附加一个随机偏移距离进行模糊化 
I w l 。但是这种方式不适于广播和发送紧急消息，容易误导正 
常的决策。 

2.4.3 更换伪名的挑战 

频繁更换伪名会增加丢包率，影响路由效率；此外，上 
下文环境使伪名可能被连接；如果协议桟其它层标识不变， 
即使更换伪名，也可能借助分析被联系起来；上层应 用协议 
不一致，伪名变换造成程序认证 困难； 伪名使得底层的通信 
协议设计变得复杂。故在设计方案中需考虑更换伪名所带 
来的升销。 

攻击者可分析伪名更换情況，特別会结合定时广播的明 
文和非易变数据，道路中的物理参数和限制:.对此，可在道路 
交点建立混合区域 （ mix - zones ) |15| >此处车辆的速度和方向 
变化最大，易于更换伪名，然后作者通过分析模型将混合区 
域聚合为混合网络 （ mix - networks ) ，增加位置的隐私度。 

如果有规律地更换伪名，攻击者可根据时空关系连接 
两个伪名车辆在更换伪名后在随机时间内保持沉默，沉默 
时间上限小于行驶信息的广播间隔时间1%同时，将若干车 
辆聚合为一个组，组首代表组进行通信，组中其余车辆在组 
内的扩展沉默时间内保持 沉默。 组领导在接收到组成员的 
消息之后，保留一段时间，乱序向接收方发送最大的沉默 
时间依赖于行驶信息的广播间隔.易被猜出。解决办法是， 
当随机沉默时间增加时，行驶信息广播时间也增加，但是会 
影响紧急消息的实时性当合并更换车道或多路 o 转弯时， 
车辆则会保持沉默,， 

2.5 入侵检测 

即便是已认证的节点也可能进行内部攻击.分析节点 
和消息的上下文语义，通过异常数据和行为检测出恶意节 
点是最有效的方法。 VANETs 中有一个基本假设 i " i , 即诚实 
的节点占据大多数。即使存在数据不一致性，也可通过协作 
找出恶意节 点：但 有文献 [16] 指出，即便假设成立.也无法完 
全保证检出恶意攻击，低密度道路中也不能完全保证恶意 
行为同时被多个节点检测到。 
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入侵检测系统 MoblDS " 4 ! 中，本地存在探测节点和监听 
节点，判断是否存在不正常转发的节点。协作评价某节点， 
如节点评价过低，則将其移出系统.向 TTP 汇报该节点，局 
部的 IDS 数据汇总为全局的 数据： 文献 [17] 介绍了分布式环 
境下识别恶意节点和检測恶意数据的感知器驱动技术，可 
以较精确地鉴别对方节点是否是恶意节点。由于节点的行 
为存在连续性，但 VANETs 中存在大量的短暂交互，节点信 
誉机制并不直接适于 VANETs . 故可将节点发送的数据本 
身作为中心，以其作为可信关系的属性，根据计算的信任熵 
进行判断11*1。 

3 安全架构 

全球的车辆数目大约为数十亿，将所有车辆都设计到 
同一个网络中并不现实。故需将网络分割为小规模，同时各 
子网能通过互联实现扩展。早在1998年，文献 [19] 已表明在 
VANETs 中不适合使用集中式的管理，特别是存在大量的 
实时计算，故应考虑设什分布式的架构，其中每台车辆均为 
自治。此后的研究大都是基于此原則。 

文献丨 14] 提出了 一个使用混合通信模型的安全架构.车 
辆定时广播行驶信息，如状态消息异常，其他车辆则产生并 
中继警告消息。该架构分为三层，底层为基本安全元素.如 
PKI 和时间位置，中层为单跳安全，主要为状态消息服务； 
上层为多类服务，如路由位置服务， f 告消息和高級服务 
等。除了传统的面向中心服务器的层次架构，也出现了面向 
车辆的新架构咧，利用 P 2 P 分布散列技术的设施通信方式， 
可建立一个分布式协作的系统。该系统需解决由 P 2 P 带来 
的系统负载，公平可靠性和网络聚合等问題。 

在架构标准方面， VSCC 提交给 IEEE 1609.2 的安全架 
构可认为是迄今为止交通网络中唯一的安全架构标准。该 
安全架构定义了基于 PK 1 的 V 2 V 和 V 2 R 通信，支持椭圆 
曲线加密 . WAVE 证书和混合加密，但是没有提供隐私保 
护、证书撤销、多跳通信以及如何防止恶意的授杈节点进行 
内部攻击。 

4 结束语 

作为下一代交通智能化网络部署的重要保证 ， VANETs 
的安全具有广泛的应用背景和重要的理论研究价值，尤其 
是如何保证在匿名的前提下实现认证和审计，同时提高效 
率，是当前研究的热点。然而， VANETs 中异构、动态拓扑、 
高速移动和短连接等特性使 VANETs 的安全机制设计面临 
巨大的挑战。近年来相关研究从不同角度讨论了 VANETs 
安全机制，但从本文的分析可看出.该领域的研究仅处于初 
步探讨的阶段，尚未建立成熟的理论体系和实践标准 。另 
外，还需重点考察伪名更改对路由、会话效率的影响，协同 
设计支持变换临时身份的路由 协议和 应用层 协议， 对协议 
栈进行必要的修改，以支持伪名的注册回调机制，并且进一 
步完善安全架构设计。 
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图3标准化路由负载 


恨据实验结果可以看到，当车辆密度增加时，各 个协议 
的路由负我都增大。但同时也可以看到，改进的 GPSR mod 
协 议的增 长比较均句，这部分增长主要是由于传递的数据 
数量不变，节点的数量增加导致发送更多的路由控制包而 
引起的。改进的 GPSR mod 协议会恨据拓扑的变化情况调 
整数据转发的策略，使得路由存活时间更长，不需要频繁地 
为建立新的路由而发送路由控制包，从而保证了路由负载 
不会急剧增长而其他两个协议，会随着车辆密度的增大而 
引起路由负载的急剧增大。这是因为当节点数量较大时，网 
络很有可能出现节点分布不均衡现象.而 AODV 和 GPSR 
协议无法同时较好地处理节点密度大的区域和密度小的区 
域，从而导致性能的大幅下降。 


目的节点最近的邻居作为下一跳节点，虽然新协议 GPSR 
mod 的路径存活时间更长，但由于节点密度较大，所以建立 
新路径的时延小，从结果上可知两者性能相似。 

三种协议的标准化的路由资载如图3 所示： 


4 结束语 

VANET 网络路由协 议的最 大挑战就在于车辆节点的 
移动导致网络拓扑的频繁变化，以及城市场景下经常存在 
的网络节点分布不均匀的现象。本文提出了一种基于车辆 
移动速度信息的路由改进策略，并通过实验证明.算法在提 
高链路存活时间、应对网络节点分布不均勾的能力方面均 
要优于同类协议。但是新的路由策略在车辆密度相对较大 
的情况下，性能的提升并不明显，并且没有解决数据包回溯 
的问題，还需要进一步地在今后的研究工作中加以改进。 
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tomata. We find that Load/Store functional unit within processor can bottleneck protocol pro¬ 
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E-mail : zhangzhibin@ software, ict. ac. cn. □ □，□ , 1969 □ □，□□□□□□，□□□□□□□□□□□□□□.□□□，□ »I960 □ 

□，□□，□□□□□□□□□□□、□□□□□□•□□□，□ ,1979 □ □，□□□□□，□□□□□□□□□□□□□□、□□□□. 
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□ □□□□□□□□□□□□•□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□on 

□ □ □ C2] ’Clark □□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□•□□□□□ 

□ □□□□，□□□□□□□□□□□□□ Cache 

□ □□□□□□□□□□□□□DO ㈣. □ □ □ 

□ □□□□□□□□□□□□□□□□□□□□□ 
□，口 SMT ( Simultaneous Multithreading) Q CMP 
(Chip Multiprocessor)Q D 0 0 D D (Thread Level 
Parallelism, TLP)D □□□□，□□□□□□□□ 
□ □□□□□□□□□□□□□•□□□□，□□ 
SMTD □□□□(□ 1)0 □□□□□□□□□□ 

□ □□□□□ -CPU □□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□•□□□□□□□ 

□ Tullsen □ 1995 □ □ □ Lfi 」 ， 

□ □□□□□□□□□□□ (Intel Xeon, Pentium 
IV， IBM Powe5 □)_□□□□□□□ [5 , 7 ’ s] □ □ ， 
SMT □□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□，□□□□ 
□ □□□□□□□□□□□，□□□□□□□□□ 

□ □ . Tullsen □□□□□□ SMT □□□□□□ 

□，口 口 [9 〕 口 □□‘‘□□□□ (Symbiosis)□ □ 

□ □□□□□□□□ SMT □□□□□，□□□□ 

□ □ □ □ SMT □□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ 口 ，□□□□□•□□ [5] 口 Intel Xeon □ □ □ □ 

□ Apache □□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□，□□□□□□ 
SMT □□□□□□□□□□□□□□□□□□□ 
□，□□□□□□□□ SMT □□□□□□□□□ 
□，□□□□□□□□□□□ Cache □□□□□□ 
□ □□□，□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□■□□□□□□□□□□DO 

□ □□□□□□□□□□□ SMT □□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ CPU □□□□□□□□ Cache □ □ □ □ □ □ 

□ □□□□□□□□□□□□□□□□ (Finite 
States Machine Decomposition, □ □□□□□□□ 

□ 

Cache non，□ □ □ SMT □□□□□□□□□□ 

□ 2D □ □ n 





□ 1 SMT0 □ □ □ □ 


2 □ □ □ □ 

□□□□□□□□□□□□□□□□□□DO 

□ □ [2,3] 口 □□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□.DO 

[9>10]D □□□□□□□□□ Cache □□□□□□ 
□□□□□□ •□□□□□□□□ Cache □ □ □ □ 

□ Cache □□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□.□□ [5]D □ □ □ 
SMT □ □ □ □ (Intel Xeon) 口 Apache □ □ □ □ □ 
□□□□□□□□□□□. 

□ □□□□□□□ (Zero-Copy) □ □□□□□□□ 

□ □□□□□□□，□□□□□□□□□□□□□ 

SMT □ □ □ □ Cache □ □ □ □ CPU □□□□□□ 

□ □，□□□□□□□□ cpu □□□□□□□□ 

□ □，□□□□□□□□□□□□□□□ Cache □ 

□ □□□.□□ [11 ] 口 □□□□□□□□□□□ 

Snort、NATO □ □ □ □ □ Cache □ □□□□□，□ 

□ □□□□□□□ (stateful protocol) □ □ □ □ □ 
Cache □□□□.□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□，□□□□□□□ 

□ □□□□□□□□□□□□•□□□ TCP o □ n 

□□□□□□□□□□□□□□□□□□□on 

Cache □□□□□□□□□□□□□.□□□□□ 

□ □□□□□□□□□□□□□□□□，□□□□ 
□ □□□□□：□□□□□□□ U2 ’ 13] ，□□□□□ 
□ □□□□□□□，□□□□□□□□□□□□□ 
□ □□□□□□□，□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□；□□□□□□ L：lJ . 
□ □□□□□□□□□□□□□□□，□□□□□ 















□□□□:□□□□□□□□□□□□□□□□□□□□ 
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□ □□□□□ SMT 

□ □□□□□□ U1] -D □□□□□□□□□□□□ 

□ □□□□•□□□□□□□□□□□□□□□a 

□ □□□□□□□□，□□□□□□□□□□□□ 

□ □□□(□□、□□、□□□□□)■□□□□□□ 

□ □□□□□□，□□□□□□□□□□□ http 

□ SMTP □□□□□(□□□□□□□□□□□ 
E 、 D、CO □□□)■□□□□□□□□□□□□□, 

□ □□□□□□□□□□□□□□□□□□□□ 

□ •□□□□ M5 □ 0 □ □ □ 1DD.□□□□□□ 

□ □ (Functional Unit) , Q 0 D D D D Intel Xeon 

□ □□□□□□□，□□□□□□□□□□□□□ 

□ □□■□□□□□□□、□□ Cache □□□□□□ 

□ □□□□□□□□□□□□□□□□□DO 

□□□□□□□(□ 2 )_□□□□□□ 10 □ □ □ □ 

□ □ (cycle) □ □□□□□，□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 


□ □ [11 ] 口 □ 口 ， □□□□□□□□□□□□ 

□ (□ IP, UDPQ )□□□□□□ Cache □ □ □ 

□ □□□□□(□ TCP, HTTP, SMTP □ )Cache 

□ □ □ (Miss Rate)D □•□□□ TCP 0 □ □ □ □ 

□ □□□□□□□□■ 

□ □□□□□□□，□ TCP □□□□□□□□ 20 

□ •□□□□□□□□□□□□，□□□□□□ 

TCP □□□□□□□□□□□□ : ESTABLISHED 

□ □□□□□□□□□□□□□□□ ， ESTAB¬ 
LISHED □ □□□□□□□□ ， ESTABLISHED □ 

□ □□□□□□□□□□□□□□•□□□□□□ 
□，□□□□□□□□□□□□□□□□□□□□, 

□□□□□□、□□□□、□□□□□□□□□□□ 
□ □□□□□□，□□□□□□□□□□□□□□ 
□，□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□ E( Establishing phase) 口 □，□ □ 

□ □□□□□ D(Data phase) □ □，□□□□□□ 

□ □ C(Closing phase) 口 □■□□□□□□□□□ 

□ □□□□□□□□□□□• 

□ □ □ □ Libnids [16] □□□□□□，□□□□ 

□ □ DSNIFFr 17 」□ HTTP □ SMTP □ □ □ □ • 
Libmds □□□□□ TCP □□□□□□□□，□ 
Linux □□□□□□□□□□□□，□□□□□□ 

□ DSNIFF □□□□□□□ 


□□□□□□□□□□□，□□□□□□□ Cache 
□ □□□□□□□■ 


3 □□□□□□□□□ 


ED □ 


CONNECT/SYN 



VM \ 

UCVD J RST 

I 丄 \ 

ZNT ) 




□ 2 TCP □□□□□(□ □□□□□□□□□□□，□□ 
□ □□□□□□□□.□□□□□□□□) 


□ □□□□，□□□□□ HTTP □□□□□□，□ 

□ □□□□□□□□、□□□□□□□，□□ Lib- 
nids □□□□□□□□□□□□□□□•□□□□ 
M5 [18] Q □□□□□，□□ Michigan □□□□□□ 

□ □ Simplescalar 3. ()(：□□□□□□□□□、 □口 

□ □ CPU □ □ □ □ ，□口 □口 Simplesclar □□口 


D D 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 

□ □ 
□)□ 


D 

D 

D 

D 

D 

D 

D 

D 

D 


L 

D 
D 
D 
D 
D 
D 
D 


D D 
D D 
D 


Co 

o 

t 

o 

r 

p 


D 

D 

D 

D 

□ ^ 
□tel 
□ta 

s 

D ( 
D D 
□ □ 


D 

□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
p FI 

c □ 

T □ 


D 

D 


D 

D 


D 

D 


D 

D 


D 

D 

D 

D 

D 

D 

D 

D 

D 

D 

， □ 
D D 
D D 
D D 
D D 
D D 
D D 
D D 
D D 
□ □ 


D D 

□ □ 

□ □ 

D D 

D D 

□ □ 

D D 

D D 

□ □ 
Nly ____ 

y D 

callD 
lod 

(D 
□ □ 
□ □ 
□ □ 
D D 
D D 
D D 
D D 
□ □ 


D D 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 


D D 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 


D 

D 


D 

D 


D 

D 

D 

D 

□ □ 

， □ 

□ □ 
□ □ 
D D 
D 


D 

D 


D 


D 

D 


D 

D 


D 

D 


D 

D 


D D 
D D 


D 

D 


D 

D 


D D 


D 

D 


D 

D 
D ， 

D D 

□ □ 


D 
D D 
D D 
□ □ 
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DXU □□□□□□□□□(□ 3，D 4). □ □ □ E 

□ □，□□□□□□□□ cycle/Byte □□□□□□ 


□ 2 □□□□□□□□□□□□□□□□ 

Functional IntALU Integer FP ALU FP MulDiv Read Store 
Unit (%) MulDivC%) (%) "(%) (%) (%) 

E 74. 16 0. 14 0 0 16.31 9.39 

D 71.24 0.02 0 0 21.88 6. 86 

C 74.18 0. 14 0 0 16.45 9.34 


口 ， □□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□，□□□□□□□□□□□□(□ 

□ □ 1KByte □ □)□□□□□□□，□□□□□□ 

□ □□•□□□□□□ cnn.nnnnnnnn 

□□□□□□□□□□，□□□□□□□□□□□ 

□ □□□□□□□□，□□□ cycle/Byte □ □ □ □ 

□ □□□□•□ 5 □ □ 6 □ □ □ □ cycle/Byte □ □ 
Cache □□□□□□□□□□□□•□□□□，□ 4 

□ 16K □ □ E 、 D、C □□□□□□□□□□□□ 
(working set). □ □ □ □ □ Cache □ □ 32Kbytes □ 

□ □ 64KBytes □ EDDDDDDD Cache □ □ □ 

□ □□□，□ DODO Cache □□□□□□ »C □ □ 

□ eq □ 

□ □ □ □ □ Cache □□□□□□□.DDDDDD 

□ □□□，□□□□□□□□□□□□ Cache □ □ 

□ □ □ .□ SMTP □□□□□□□□□□□□□. 

□ □□□□□□□□□ Cache □□□□□□ 
32KBytes ，口 Intel Xeon □ □□□□□□□□□□ 

□ □□，□□□□□ Cache □ □ 8KBytes. □ □ □ □ 

□ □□□□□□□□，□□□□□□□□□ TCPQ 

□□□□□□□□□□□□□Enn.DDDnn 

□ □ Cache □□□□□□•□□□ Cache □ □ □ 
1M □ 2M □，□ □ Load/Store □□□□□□□□ 
Cache □ □ 8KBytes □□□□□□□□□□□□ 
5% ;D D Cache Q Q 8KBytes 口，□口 □口 Cache 


TP □ SMTP(POP3 □□□□□□□ SMTP □ □) 

□ □□□□□□□□□□ Cache □□□□□□□□ 

□ • □ □ □ Cache □ □ □ (way of set associative )、 

□ □ □ (Cache line size)0 □□□□□□□□，□□ 

□ □ □ □ 30 0 . 

□ 3 □ □ □ □ Cache □ □ □ □ 


Level 

Way of set 
associative 

Cache line 
size(Byte) 

Latency Replacement 
(cycle) Policy 

LI I-Cache 

4 

64 

1 

LRU 

LI D-Cache 

4 

64 

2 

LRU 

L2 Unified Cache 

8 

64 

10 

LRU 


4 instructions per 
cycle (Fetch, Decode ， 
Issue and Commit) 


OOO Issue 

Out of order issue ， 
256-entry ROB 


Functional Units 

l IntALU» 1 Integer MulDiv ， 
2 FP ALU, 2FP_MultDiv, 

1 Read, 1 Store 


LI I-Cache, 
LI D-Cache 

4,8,16,32, 

64 ， 128K 


Unified L2 
Cache 


Main Memory- 
Latency 


512K,1M,2M 100 cycle 


□ □□□□□□□□□□□•□□□□□□□，□□ gus □□□□□□□□□□□，□□□□□□□□ 

□ □□□□□□□□□□□□□□□□•□□□□ □ 35%~45%D 

□ □ □ □ 70%Q □，□□□□ EQ C □ □ □ □ □ □□□□□□，□□□□□□□□□□□□□.□□ 

15%D □□□ DnDDDD 20%D □•□□□□□ □□□□□□□□□ Load/Store □□口 4 □□口 

□ □ □ □ (HTTP □ SMTP)Q □□□□□□□.□ □□，□□□□□□□□□□□□□□□□□(□□ 

□ □□□□□□□□□□□□□□□□，□□□□ SMT)CPU □□□□□□□□□.□ Intel □ □ □ 

□ □□□□□□□□□□□□□□•□□□□□ '□ (Hyper-Threading) □ □ CPU □ Load □ Store □ 

□ □□□□□□□□□□□□□□，□□□□□□ □□□□□□•□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□•□□ [H]n Snort, Ar- □ □ □ □ • 

□ 1 M5 □□□□□□□□□□ 


□ □ 

□)□ □ 

□ □口 

□ □pn 

□ □ c 

□leT 
c 

D y D 


□ □ 
□ □ 


[□ 
□ □ 
□ □ 
D □ 

□ □ 

□ □ 
□ □ 
D □ 


□ □ 
□ □ 
□ □ 
□] 


[□ 
_ue 

□ch 

)Dca 


□ □ 
□ □ 
□ □ 
D 


^ □ 
D 
D 

D 

D 

， □ 

D 

D 

D 

D 

D 

D 

D 

D 

D 

D 

D 

D 

D 

D 

D 

_I □ 


□ T 
D H 

□ □ 
□ □ 
□ □ 

□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
he□ 


□ □口 
D D D 
D D D 
D D D 
D D D 
D D D 

□ □ 

□ □口 

□ □口 

□ □口 

， D 
D ) 

D D □ 

D D □ 

e- 一 
□ytIm 

□ B 

4 D 
D 6 
(D 
D 

，□口 
D D D 
D D D 
D D D 
D D D 
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8 16 32 64 128 

LI CacheD □ (K) 

□ 6 □□□□□□ Cache □□□□□□ (SMTP) 



LI Cache □口 (K ) 


□ 7 □□□□□□□□ Cache □ □ □ □ 

□ □□□□□□□□□□□□□□□□□，□ 

□ □ □ □ Cache □ □ (16KByte □ □)□□□□，□ 

□ □□□□□□□□□□□□□□ Cache □ □ □. 
□□□□□□□□□□□□□□□□ Cache □ □ □ 

□ □□，□□□ SMTP □□□□□□□□.□□□ 

□ □□□□□□□□□ SMTP □□□□□□□□ 

□ □ □ □ □ Cache □□ 口 （Miss Rate) ； □□口 
SMTQ □□□□□□□□□□，□□□□□□□□ 

□ □□□□□，□□□□□□ Cache 

□ □ □ □ I-Cache □ □ D-Cache，n SMT □ □ □ □ 

□ □□□□□ Cache □□□□□□□□□□□，□ 

□ □□□□□□□□□□□□□□□□□ Cache □ 

□ □(□□□□□□□□□□□□□□□ Cache □ 

□ □□□□□□□□□□□，□□□ Miss Rate □ 

□ □□□□□)•□□□□□□□，□□□ E.DXQ 

□ □ □ □ I-Cache □□□□□□□□□，□ EDO 

□ □□□□□□□•□ D-Cache ， D、C □□□□□□ 

□ □□□，□ E n n n Cache □□□□□□□□□ 

□ EQnDDDDDD 

□ □ Cache ，□□□□□□ 

Cache □□□□□□□□□□□ £□□□□□□□ 

□ Load/ 
Store □□□□□□□，□□□□□□□□□□□ 

□ .□□□□□□□□□ £□□□□□□□□□□ 

□ □□□□□□□ Cache □ □ □ □. 


叫: □ □ 
■D 口 □ 
□C[] □ 



16 32 

LI Cache □口 (K) 


□ □□□□□ Cache □ □ □ □ □ □ (HTTP) 



16 32 64 128 

LI Cache □口 (K) 


□ Cache □ □□□□□□ 

□ □□□□□□□□■ □□□□□□ ID Load/ 
Store □□，□□□ Cache □ 8 KBytes □ □ □ □ □ 

□ □ 30 %□□□□□□□. □口 Load/Store □ □ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ ，□□□□□□□□□ Cache □ □ □ □ □ 

□ □□，□□□□□ Load/Store □□□□□□□□ 
Cache(128KByteD □)□□□ E □ 0 □ 40%0 □ 

□ □□□□□,D □□□□□□□□□□ 10%D 
□，□ €□□□□□□□□□□□□□□□ 20 〜 
30 %. 0 D Cache □□口 CPI (Cycle Per Instruc¬ 
tion) Q □，□□□□□□□□□□□□□□□，□ 
□□□□□□ Load/Store □□□□□□□(□ 7 )， 

□ □□□□□•□□，□□□□□□□□□□□□□ 
□ □□□□□□□□□• 



LI Cache□ □ (K) 

□ 3 □□□□□□□□□□□□□ (HTTP) 


□ 

■DQ □ 
□ cn 门 


3 



( 次 ) □ □ □ □OJ^g/aJpho 



w-5050505 
4:3 3 2 2 1 1 

s □ □ □ 口长9/重3 


61/II 

IX 1 


□ 5 □□□□□□□□□□□□□ (SMTP) 







































































































6 


2006 □ 


8 16 32 64 

LI D-Cache □口 (K) 

□ 13 C Q Q I-Cache Miss Rate □ □ 

4 □□□□□□□□□□□□□□ 

□ □□□□□□，□□□□□□□□□□ TCP 

□ □□-□□□□□□□□□□□□ TCP □ □ 0 0 

□ □ £□□，□□□□□□□ Cache 

□ □□□□□□□□□□□□□□□□□□□□□ 
□ □■□□□□□□□□□□□□□□□□□□ 

(Finite States Machine, FSM) 口 □□.□□□□□ 

□ □□□□□□□□□□□□□□□■□□□□□ 
□ □□□□，□□□□□□□□□□□□□□□□ 

□ 0 SMT □□□□□□□□□□□，□□□□ 

□ □□□□□□□□ 
□ □□，□□□□□□□□□□□□□□□□□□ 
口 ， □□□□□□□□□□□□□□□□□□□□ 

□ □ □ □ Cache □□□□□□□□□□□□□□□ 

□ □□□□□□□□、□□□□、□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□DO 

□ □□□□•□□□□□□□□□□□□□□□a 

□ □□□■□□□□□□□□ ( FSM decomposi¬ 
tion)^ □ □□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□，□□□□□□□ 

□ □□■□□□□□□ Hartmanis □ Stearns □ □ 

□ □ 60 □ □ □ □ ㈨ 」 ,□ □ □ icn □ 

□ □□□□□□□□□□□□□□□□□□□ 

M=(I,0,S,S,X)，n □ / o 

□ □ SXIQ snDDDDDODDDDD.A 

□ sxjnonnnnnnnnon.nnnnn 

□ 5(s,a) G S □ □ □ □ □ A(5,a)GO. □ □ □ M [] 
{ 私，压， … ，压 }，□ □ [JUi B,=S □ B,[}B J = 0 

d<z> j^k, n i ^ j ). □ n d 7tdddd-b,dd 



16 32 64 

LI D-Cache□ □ (K) 

E □ □ D-Cache Miss Rate D Q 


■□ □ □ 




8 16 32 64 

LI D-Cache □口 (K) 

D □ □ D-Cache Miss Rate D U 



16 32 64 

LI D-Cache 口 □ (K) 

)C □ □ D-Cache Miss Rate Q D 
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LI D-Cache □口 (K) 

E □ □ I-Cache Miss Rate Q Q 


-4 - □ □ □ 

—SMT 



16 32 64 

LI D-CacheD □ (K) 

2 D 0 D I-Cache Miss Rate U Q 




S9ISS13 






SISsi3 


1± 
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(％) JIAPHgo 


Tx 

□ 




Tx 
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LI CacheD □ (K) 

□ 16 Cache □ □□□□□□□□□ 


□ □□□□□□□□■□□□□□□□□□□，□□ 
□ □□□□□□ DO CD□□□ □. 



□ 15 TCP o o □ □ o □ o 

£□□□□□□□□□□□□□□□□□□， 

□ □□□□□□□□□□□□□□，□ DXD 0 □ 

□ □□□□□□□□□□ Cache □□□□□□□ 

□ L22 ' 23] .D □□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□，□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□•□□ 

□ □□□□□□□□□□□□□□□□□□□DO 

□ ■□□□□□□，□□□□□□□□□□□□□□ 

□ □□□□□□□□□□ cpu □□□□□□ □ 

□，□□□□□□□□□□□□□□□□□ Cache 

□ □□，□□□□□□■ 

5 □□□□□□□□□ 

□ □□□□□□□□ SMT n □ □ □ HTTP □ 
□ □□□□□□□□□□□□，□□□□□□□ 
Cache □□□■□□□□□□□□□□□(□ 16 ) ， 口 
EQ □ □ D,€□□□□□□□□□□□□□□□ 

□ □，□□□□□□ Cache □□□□□□□□□□ 

□ Cache □ □ 16K □ □ □ D、C □ □ 

□ □ 0 □ Cache 0 EQ □ □□ EO □ □ □ □ 0 

□ □□□□□□□□□•□□□ Cache □ □ 16K 
□，□ □ D、C □ □ Cache □□□□□□□□□□ 
□ ， □ □ E □ □ □ Cache □□□□■□□□□□□， 
Cache □□□□□□□□ CPU □□□□□□□□ 


□ □□□、□□□□ 、 Cascade □□□□□□□□□ 

□ L3 。]，□ □ 14 □□.□□□□□□□□□□□ M 1; 

□ □□□□□ M 2 D □;□□□□□ M ： n M 2 Q □ □ 

□ □□□□，□□□□ CDDDDDDDn ； Cas¬ 
cade □ □□ M.Q M 2 □□□□□□，□ M 2 D D 0 
M X D □□□□□□□□ ； □□□□□□ ， M,D M 2 

□ □□□□□□•□□□□□□□□□□□□□□ 
□ □，□ □□□□□□□□□□□□□□□□□□■ 

□ □□□□□□□□□□□□□，□□□□□□□□ 

Cascade □□□□□□□□□□□□□□□□□■ 



(d) Cascaded] □ (e) □ □ □ □ 

□ 14 □□□□□□ 


□ TCP □□□，□□□□ Cascade □ □ □ □ □ 

□ □□□□□□□□□□□□□(□ 15). □ □ □ 0 

□ □□□□□□□□□□，□□□□□□□□□□ 

□ □□□□□□□□□□□ Cache □□□□□□□ 

□，□□□□□□□□ £□□□□□□□□□□□ 

□ □€□□□□□□□□□□□□□□.□ E 

□ □□□□□□□□□□□□□□□□ D,CD □ 

□ □□.□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□ DXD □ □ □ □ □ ;□ 

DXD □□□□□□□□□□□□□□□□□□， 

□ □□□□□□□□ S,□□□□□□□□□□□ 

□ □□□■□□□□□，□□□□□□□□□□、□ 
□□□□□□□□□□□□□□□□□□□□□□ 
□ □，□□□□□□□□□□□□□□□□□□□ 

□ TCP □□□□□□□□□□□□□□□□□ 

□ SMTP □□□□□□□□ 



8 6 4 2 
silocoo 








































□□□□□□□□□□□□，□□□□ Load/Store 

□ □□□□，□□□□□□□□□□□■ 

□ □ □ □ □ Intel Xeon 2. 4G (□□□□□ □ 
Hyper-Threading)，□ □ □ □ □ Red Hat 9 □ □ □ 

□ □□□□□□□□，□□□□□□□、□□□□、 
□ □□□□□□□□□□□□□□，□□□□□□ 

□ □□□□□□■ □口 [10 ] 口 □□□□□□□□□ 

□ □□□□□□□□□■□□□□□□□□，□□□ 
□ □□□□□□□□□□□□□□，□□□□□□ 
□ □□□□□□□□□□□□□□■□□，□□□□ 
□ □□□□□□，□□□□□□□□□□□□□□ 
□ □□□□，□□□□□□□□□□□□□□□□ 
□ □□■□□□□□□□□□□□□□□□□□，□ 

□ [21]D □□□□□□□□•□□□□□□，□□□ 

□ □□□□□ (1KByte □□)□□□(□□ 60Byte) 

□ □□□□□□ 5/4 □□，□□□□□□□□□□ 

□ □ □ □ 90%D □•□□□□□□□□□□□□□ 

□ □□□，□□□□□□□□□□□□□□□□□ 
□ □□□□□，□□□□□□□□□□□□□□□ 

□ 1 : 1. □□□□□□□□□□□□ (lmin)n □ □ 

□ □□□□□□□□□□□，□□□□□□□□□ 

□ □□□□□□□□□□□□□■□□□□□DO 

□ □□□□□，□□□□□□□□□□□□□□□ 

□ □□□□□□□□□ SMTP □□，□□□□□□ 

□ 100MByte □□■□□□□□□□，□□□□ 40 

□ □□□□□□，□□□□□□□□□□□ 20 □ □ 

□ □□□□■□□□□□□□□□□□□□□□□ 

□ !■，□□□□□ 2 □ □ □ □ (□ CPUD □ □ □ n 

□ □)□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□(□ 17,□ 18). 

□ □□□.□□□□□□□□□□□□□□□□□ 
□ □□□，□□□□□□□□□□□□□(□□ 
5%).0 19 □□□□□□□□□ 2 (口 □□□□)□ 
□ □□□□□□□□□□□□□□□□□□□□□ 


1.05 

] 

] 1.00 

] 

] 0.95 

] 

]0.90 

] 
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0.80 
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u 
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1II1 in 


■ singlethread 

■ connection 
parallism 

□ FSM 
decomposition 


□ □ □ □ □ □ □ □ □ □ □ □ 


□ □□□□□□□□□□□□(□□ Cache)，□ 口 

□□□□□□□□□□□□□□□□□□□□□a 


□□□□□□□□□□□□□□□□□□□□□ 


■ singlethread 

■connection 
parallism 
□ FSM 
decomposition 


□ □□ □□□ □□□ □□□ 

□ 18 □□□□□□□ 



3 4 5 6 

□ □ □ 

□ 19 □□□□□□□□□□ 


□ □□□□□□ 

□ □□□□□□□□□□，□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□• □口 
4]D □□□□□□□□□□□□□□□□□ 
>u □□□□□□□ TCP/IP □□□□□□□□ 

□ □□□□□□□•□□□□□DO CPU □口 

□ □□□□□□□□□□□□□□□□□□• 口 

□ TCP □□□□□□□□□□□□□□□□□ 

□ □ SMT □□□□□□□□□□ Cache □□口 

□ □□□□□，□□□□□□□□□□□□□□ 

□ □□□□□□□，□□ Load/Store □ □ □ □口 
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Background 

The problem raised in this paper is one of the most sig¬ 
nificant problems in computer architecture and network secu¬ 
rity. The appearance of Thread Level Parallelism (TLP) ar¬ 
chitecture like SMT and CMP also brings the cache conten¬ 
tion problem, which has been widely studied by researchers. 
But most current works put focus on operating system level ， 
trying to optimize the scheduling strategy within OS in SMT 
processor which can be very complex in real cases. On the 
other hand，recent studies find that the cache behavior of net¬ 
working application can be different according to packets 
types. As any stateful protocol can be described by a finite 
state machine, in this paper the authors put effort on cache 


behavior variance in state phases within protocol state ma¬ 
chine and present a new parallelism strategy for parallel pro¬ 
tocol processing in SMT processors. Moreover the parallel¬ 
ism strategy suggested before can be regarded as special cases 
of our strategy. This work is supported in part by National 
High-Tech Research and Development Plan of China under 
Grant 2004CB318109. In this project we focus the basic tech¬ 
nologies in high speed network security like high performance 
protocol processing. The work in this paper is part of our re¬ 
search on high performance protocol processing, trying to use 
the current architecture characters more efficiently. 
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(3) □ □ TCP/IP 

□ □□□□□□□□□□□□□□□□□□□ RTTQ □□□□□□□□□□□；□□□□□，□□□□□□□□ 

□ □□□□□□□□□□□□，□□□□□□□□□□□□□□□□□□□□□□□，□□□□□□□□□□ 
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□ □ □ □ (data mining ) ，口 □□□□□□□□ (Petri 

□ □□□□□□□□□’□□□□□□□□□□’□□□□□□□□□□□□□□□□□□□□□’□□□DO 

□ □□□□• 

□ □□□□□□□□□□□□□□□□□□□□□□.□□.□□□□□□’□□□CIO QoS □□□□□□□□ 
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□ □□□□□□□□□□□□□□□□□ [81 D □□□□，□□ GIS □□，□□□□□□□□□□□□□□□□□ 

□ □ □ □ ■ 

□ □□□□□□□□□□□□□□□□□□□ [ 9] . 口 □□□□□□□□□□□□□□□ Petri □ □□□□□□□ 
Poisson □□□□□.□□ Internet 

□ □ ■ 

□□□□□□□□□□□□□□□□□□□□□□. 

□□□□□□□□□□: 

□ □□□□□□□□□□’□□□□□□□□□□□□□□□□□□□□□□□□□□.□□□□□□□a 

□ □ ■ 

(2) □□□□□□.□ □ Internet □□□□□□□□□□□□，□□□□□□□□□□□□□，□□□□□□ 

□ □□□□□□□□□□□□□□□■□□□□□□□□□□□□□DO. 

□ 口 

□ □□.□□□□□□□□□□□□□□□□□□□’□□□□□□□□[JO Whois □□□□□□□□□□□□ 

□ □□□□□□□□□□□□□. 

(4) □，口 □，口 □□□□□□□□□ 
□，口 □□□□□□□□□□□□□□□□□. 

□ □□□□□□□□□□. 

□ □□□□□□□□□□□□□□ □，口 □，口 □□□□□□，□□□□□□□□□ 
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□ □□□□，□□□□□□□□□□□□□□□□□□『□『□□，□□□□□□□□□□□□□□□□□• 
⑻ □□□□□□□□□• 

3 □□□□ 


(1) .David Moore □ □ □ □ □ □ 

□，□□□□□□□□□□ 2001 □ 7 口 〜 14 口 □□□□□□□□□，□□ http://www.caida.org/ 

analysis/security/code-red/coderedv2_analysis.xml •口 □□□□□□□□□□□□，□□ 1. 

Table 1 Total IP infected by Redcode in different countries 
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A Parallel Packet Classification Algorithm with Real-Time Incremental Updates 
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1 (Research Centre of Computer Network and Information Security Technology , Harbin Institute of Technology ， Harbin 

150001) 

2 {Institute of Computing Technology ， Chinese Academy of Sciences , Beijing 100190) 

Abstract UTM (unified threat management) technique requires that packet classification algorithms 
support incremental updates. However, Current approaches mainly focus on speeding up the 
classification，and rarely consider the requirement of incremental updates，which hinders UTM’s 
practical applications. In this paper, a parallel classification algorithm is proposed to improve the 
performance of incremental updates. Firstly, a two dimension hybrid hierarchical trie is proposed to 
organize the classification rule-set. Kinds of the prefix-couples in rules can be formed into groups by 
mapping them into the trie because of the characteristics of the trie structure, and then the whole rule- 
set can be divided into a number of sub-sets. The processing procedure of each packet has been 
decomposed into several independent sub-missions, and each of them deals with a subset. Since the 
hybrid hierarchical trie maintaines the independence of each rule，each of them can be added or deleted 
from the trie incrementally. The experimental results show that the new algorithm can improve the 
speed of incremental updates to the same order of magnitude of classification. Additionally, using the 
parallel method in classification makes significant reduction in the algorithm’s sensitivity to the scale 
and type of rule-sets, therefore the algorithm is more adaptive and scalable. 

Key words packet classification ； parallel search ； incremental update ； hybrid hierarchical trie ； sub rule-set 

摘要 UTM( unified threat management) 技术的提出和应用要求多维包分类算法能够支持实时的增 
量更新.但由于以往的研究都侧重于加快算法的查找速度，这一需求已经成了目前包分类算法在实际应 
用中的一个 瓶颈 . 提出一种二维 tr i e 树结构来组织分类规则，并给出了相应的查找及更新算法.利用 
trie 结构的特性将各种长度的前缀组合进行分组，并依此将整个规则集分成多个子集.查找时将每一次 
查找过程分解成若干个可以独立运行的子任务，每个子任务处理一个子集.两级混合 trie 结构保持了规 
则之间的独立性，因此可以快速地对单条规则进行增量删除或添加.实验结果表明，本算法在保持高速 
查找的基础上，将单条规则的增量更新操作速度提高到了和单次查找操作同样的量级，同时并行查找使 
得算法对规则类型和规模的敏感度大大降低，具有较好的可扩展性. 
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关键词 包分类；并行查找；增量更新；混合 trie 结构；规则子集 
中图法分类号 TP393. 08 


0引 言 

为了应对网络中日益复杂的攻击，加快整个互 
联网体系的应急响应速度，网络安全领域提出了 
UTM 技术. UTM 的一个重要特征就是各个功能部 
件之间实行联动，实现了检测、阻断控制以及统计等 
部件之间的协同工作.在这种联动机制中，部件之间 
使用访问控制规则进行信息交互，因此 UTM 的一 
个重要支撑技术就是基于访问控制规则的多维包分 
类.在 UTM 的联动体系中，访问控制规则的更新频 
率已经提高到了毫秒甚至微秒级别，这就要求包分 
类算法支持实时的增量更新来使整个系统高效的 
运行. 

包分类（也称为 IP 分组分类）是指利用给定规 
则对网络中的数据包根据其头部信息进行分类，所 
有给定的规则称为规则集.一个优秀的包分类算法 
需要满足 ：1 .查找速 度快； 2. 占用空 间小； 3. 易于更 
新（包括完全更新和增量更新） [1] .由于包分类算法 
的重要性和应用的广泛性，已有很多研究人员进行 
了大量的研究，也出现了很多优秀的算法，然而由于 
包分类问题本身的复杂性，至今还没有设计出在各 
方面都非常高效的理想算法.早期的研究主要关注 
算法的查找效率和空间效率，其 中：基 于维度分解的 
算法速度快，但是空间代价很高，因此此类算法中的 
RFC [2] , HSMM 以及 ABV [4] 等算法分别使用分段 
差乘和分段 bit 压缩来降低空间消耗.基于维度分 
解的算法本质上属于对整个规则集进行整体编码， 
在查找结构中无法得到单条规则的信息，因而无法 
增量更新•基于几何分割的 h 1 C uts [5] 和 hypercuts ™ 
等算法把规则域映射为多维空间的维度，并使用几 
何搜索完成查找.然而基于几何分割的算法在构建 
查找结构时，利用了规则优先级进行适当的剪裁，因 
此在进行增量更新时可能导致规则丢失. AQT 算 
法 [7] 使用二维分割树来进行查找，可以支持快速更 
新，但是它只限于二维 分类； 基于元组空间的 tuple 
space search ™ 算法根据2个前缀规则域上前缀长 
度的不同，通过预计算对规则进行分组，然后使用高 
效的 Hash 查找算法在每个分组中进行查找，这种 
方法空间占用率小、平均性能好，但是 Hash 函数的 
使用使得其性能不稳定.基于 trie 树的集合归并 


trie C 9] 为了避免回溯对规则进行了复制，而 grid of 
tri # 鐵， EGT - PC _. 算法则在基本 tr k 结构中添 
加跳转指针 （switch pointer ) 来消除回溯.这都导致 
算法在对单条规则进行删除或添加时需要重构整个 
数据结构，无法进行增量 更新; DGoT [12] 算法在跳转 
指针的基础上改进了更新性能，但相比分类速度仍 
有较大差距.近年来，随着处理器技术的进步，为了 
进一步加快匹配速度，一些学者提出了并行查找的 
方法， 其中： AM - trie [13] 是基于 trie 树结构的并行算 
法， TIC [14] 是基于 RFC 结构的并行算法，并且这2 
个算法都是针对专用的网络处理器. 

可见，以往的研究主要集中于如何使用较少的 
空间达到更快的匹配速度，而没有考虑甚至牺牲了 
增量更新性能.为了使算法能够在3个指标上都有 
较好的效率，需要引人其他资源，例如上面提到的并 
行查找就是引人了更多的计算资源，另外 Michael 
等人在对包分类规则的特点进行详细分析后指出， 
设计高效多维包分类算法时，应该将查找过程分成 
2个阶段 进行： 1. 找到所有能够匹配源 IP 和目的 IP 
字段的规则； 2.对剩余的规则域进行匹配 [15] .根据 
这2点，本文提出了 PTRIE 算法： 使用两级混合 
trie 结构来组织分类规则，利用 trie 节点和前缀的 
对应关系将规则集划分成若干个子集，在查找时把 
对每个子集的处理当成一个独立的子任务来完成， 
从而使得整个查找过程可以并行进行.本文还给出 
了在此结构上的增量更新算法.在多种类型以及不 
同规模规则集下的实验结果表 明：本 方法在保持高 
速查找的同时，将单条规则的增量更新速度提高到 
了和一次查找相同的量级，并且其性能受规则类型 
和规模的影响较小，具有很好的可扩展性. 

1并行包分类算法 —— PTRIE 

一般而言，源 IP 和目的 IP 规则域都是以前缀 
的形式出现，因此本文采用基于 trie 结构的方法来 
组织前两维规则.由引言中的分析可知，在 trie 树中 
进行查找需要使用遍历操作.虽然可以引人跳转指 
针或复制部分规则来消除遍历，但这2种方法都无 
法同时满足高效的匹配和快速的增量更新.为了解 
决这一矛盾，本文提出使用并行查找，将对 trie 树不 
同分支的遍历同步进行，从而在提高查找速度的同时 
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避免了对规则集进行整体编码，使算法可以对单条 
规则进行增量添加或删除. 

为了便于描述，作如下规定 ：规则 表示为 r , 总、 
维度为 d ，>- 的前两维前缀规则域分别为 jnj / z'Xi = 
{ a l , a 2 , ••• , a h > , prefix 2 = < 61 ， 62 ， ... ， 6; 2 > ，其中 a ; ， 
《 0 ， l }， Zi 和 Z 2 为前缀的长度且 0 ^, 4 - CW . 
数据包头部信息表示为其源和目的 IP 字段 
分别为和 dip . 

1.1 两级混合 trie 结构 

并行查找的基础就是合理的任务划分，为此，本 
文在 trie 树中引人元组空间分割的思 想：与 传统的 
trie 树不同，本算法中每个 trie 树节点对应1个前 
缀二元组，其中根节点对应的2个前缀长度均为0, 
层数定义为0.在向 tne 树中添加规则 r 时，假设当 
前 trie 节点层数为々，则同时选取 pre / fxi 和 
pre fix 2 位置 k ~\~ \ 处的各一个 bit 形成二元组 
<« i + it + i > ，并将 \ b t +i 的值作为标记构造第々+ 
1层子节点.每一个 trie 节点对应的前缀二元组为 
从根节点到其本身所经过路径上的标记 bk 二元组 
的顺序连接. 

假设 r 满足 Zi > Z 2 ，那么当构建到 trie 树的第4 
层时，将会由于 pre / z ' x 2 的 bit 已经用尽无法继续构 
建，此时则将 r “归属”在当前 trie 节点上.因此，当 
trie 树构建完毕时，规则集就会根据前缀长度的不 
同组合分成若干组，每组都是规则集的一个子集，且 
任意2个子集之间的交集为空.这个分组的结果类 
似于 tuple space search 算法的分组结果.由于每个 
trie 树节点都表示一个唯一的前缀二元组，因此对 
于某个 trie 树节点对应的规则；-，只需使用较长前 
缀的“剩余” bk 就可以表示2个前缀规则域，记为 
prefix 細 ，例 如：当 A > 4时 ， pre fix = < a h+1 , 
a h + ,,-, a h y . 可见分组过程相当于将二维前缀域 
降维成了一维前缀. 

对于每个子集，本算法使用单比特 trie 树结构 
进行组织（为了便于表述，下文中我们将每个子集构 
建而成的 trie 树称为 gtrie ). 每个 gtire 节点对应一 
个前缀，根节点表示长度为0的前缀. gtrie 的构造 
过程与上面类似 ：从根 节点出发，顺次选取 prefix m 
的1个 bit 作为标记来构造当前节点的下一级子节 
点.每个 gtrie 节点对应的前缀为从根节点出发到其 
本身所经过路径上标记 bk 的顺序连接.如果规则 r 
的 prefix 匹配了某个节点所代表的前缀，那么在 


这个节点处附加一个链表，将 r 剩余的^一2维规则 
域放人这个节点的链表中.需要说明的是，由于前缀 
长度的任意性，每个规则子集里面的规则可以又可 
以分成2类 ，一 类满足反之为为了匹 
配的时候能够区分这2种情况，本文将前2类规则 
分别建成一棵 gtrie 树，这意味着每个 trie 树节点下 
可能有2棵 gtrie (分别称为 s gtrie f [] d gtrie ). 

果 A =4,则根据任务负载均衡的原则将其分配到 
其中的一棵 gtrie 中.这样 trie 树与依附于其叶子节 
点的规则子集形成的 gtrie 就形成了一个两级混合 
trie 结构. 

表1为一组典型的访问控制规则，前2维为前 
缀型规则域，域宽为 4( * 表示通配符，可以匹配0 
或 1); 第3,4维为范围型规则域，第5维为具体匹 
配型规则域.按照前面描述的方法，这11条规则所 
形成的查找结构如图1所示.在图1中，实线矩形表 
示 tire 树的节点，节点内为其对应的前缀二元组.路 
径旁边的数字表示标记 bit 二元组.椭圆形内为依 
附于这个 trie 树节点的规则子集，可以看出，表1中 
的11条规则被分成了 4组.带有阴影的矩形内则给 
出了其中一个分组的 gtrie 结构 （ s _ gtrz ’ e ) :圆 圈表示 
gtrie 节点，带阴影的虚线矩形表示这个 gtrie 的规 
则链表节点.从图1中可以看出/ 5 ，/ 6 ，/ 7 都依附于 
前缀二元组为〈0 *** ，: L ***> 的 trie 节点，而在这 
3条规则组成的子集形成的 gtrie 结构中，/ 7 的 
声 re / z '： r dif £ 长度为0,因此其 d —2 维规则域被放在 gtrie 
根节点的链表中，/ 5 和 / s 具有相同的 prefixes = 
〈11〉，因此处在同一个叶子节点的链表中. 


Table 1 An Example of Rule Set 
表 i 规则实例 


Filter 

Fieldi 

Fieldi 

Fields 

Fields 

Fields 

ACT 

fo 

000 * 

111 * 

[2,2] 

[0,3] 

UDP 

actO 

fi 

000 * 

111 * 

[1 ， 1] 

[2,2] 

UDP 

actO 

h 

000 * 

10 * 

[0,3] 

[2,2] 

TCP 

actl 

h 

000 * 

10 * 

[0,3] 

[1 ， 1] 

TCP 

act2 

h 

000 * 

10 * 

[2,2] 

[3,3] 

TCP 

actl 

h 

0 * 

111 * 

[2,2] 

[1,2] 

UDP 

actO 

n 

0 * 

111 * 

[2,2] 

[1,2] 

UDP 

actO 

fi 

0 * 

1 * 

[0,3] 

[0,3] 

TCP 

act2 

h 

* 

01 * 

[0,3] 

[0,3] 

TCP 

act2 

h 

* 

0 * 

[0,3] 

[1 ， 1] 

UDP 

actO 

fio 

* 

关 

[0,3] 

[0,3] 

UDP 

actS 

fn 

* 

关 

[0,3] 

[0,3] 

TCP 

acti 
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Fig. 1 Two-dimension hybrid hierarchical trie. 

图 1 两级混合 trie 结构 

1.2 查找和更新 

使用上面所描述的数据结构，且假设已经取得 
了一个数据包的 head . 查找过程可以描述如 下：使 
用的和心户字段从 trie 树的根节点 
UrkrooZ ) 开始进行查找，顺次截取和相同 
位置的各一个 bit , 然后根据这2个 bit 的组合来跳 
转到下一层的 trie 树节点.如果所到达的 trie 树节 
点对应有规则子集，则启动一个子任务来完成对这 
个子集的搜索. 

子任务在对每个 gtrie 进行搜索时，如果是对 
进行搜索且其所属 trie 树节点层 
数为 Z ， 则继续截取 S ip ( dip)hk 1+1 位开始的其余 
bit 来完成对的查找.对于经过的 
每一个 gtrie 节点，如果这个节点对应的规则链表不 
为空，就通过比较剩余的 d ~2 维规则域来找到匹 
配的规则.最后将所有匹配规则中优先级最高的一 
条作为查找结果.查找的主要过程如算法1所示，其 
中 createxvork 为启动子任务的操作 ， getbit (index , 
心 zYs ) 为获取中 index 位置处 bit 的操作? search list 
ihead ， listheader ) 在 V 丄 listheader 为头部的链表中 
寻找并输岀所有后^ 一2维规则域能够匹配 head 
的规则. 

算法 1. searchtrie ( head ， trieroot ) { 
pnode—trieroot •， 
for i G { 

iKpnode . s _ gtrieroot ) { 

createvuork ( searchgtrieUiead ， 
pnode . s 一 gtrieroot , z , 0 ) ) ;} 

[{( pnode . d _ gtrieroot ) { 

createvuork ( searchgtrie(head , 
pnode . d _ gtrieroot , z , 1) ) ；} 


index — getbitii ， head . sip ) X 2 + 
getbit ( i ， head , dip )； 
pnode = pnode . child \_ index ~\ ; 
pnode = = NULL ) return . }} 

search gtrie { head ， gtrieroot ， len ， flag ) { 
pgnode—gtrieroot •， 
ip — flag 〉0? head , sip : head , dip ; 
for i G len -^ rl'^W { 
if ( pgnode . rulelist ) 

searchlistihead ， gnode . rulelist ) 
index — getbitii ， ip ) •， 
pgnode — pgnode . child \_ index ~\; 
\{{ pgnode ==] < \\5\ A ^) return . } 

可以看岀，在查找过程中， 主任务 （ searchtrie ) 
只进行任务分配，并且只操作 trie 树，而子任务操作 
各自的 gtrie 树，因而每个子任务在被启动以后就可 
以独立于主任务运行.由于每个 gtrie 所对应的规则 
子集之间无交集，因此各个子任务之间不存在交互， 
可以并发执行. 

更新操作包括重构更新和增量更新，重构更新 
的过程就是建立查找结构的过程，这里不再详述.增 
量更新包括增量删除和增量添加.在本文所使用的 
数据结构中，对于一个给定的规则，添加（删除）的过 
程都首先需要得到规则所在的位置，这个任务由 
findrule 完成.在 findrule 中 ，首先使用给定规则 r 
的前2维前缀规则域来确定其在 trie 树中的位置. 
假设，则在 trie 树中进行4步查找来找到这 
个规则所属的子集，然后使用 Prefix , 的后 U-U 
个 bit (户 re / z \ r diff ) 来在 s _ gtrie 中查找规则所属的链 
表，最后在链表中使用剩余的 d -2 维规则域来判 
定规则是否存在.如果要寻找的规则存在 ， /bdrMZe 
返回这个规则在链表中的位置；如果规则不存在， 
则返回这个规则应该被放置的链表.整个过程如算 
法2所示. 

算法 2. findrule ( r , trier oot , retnode ). 

NULL , pnode—trieroot •， 
for i … minU ^ 2 ) { / * Zi ? Z 2 为 2 个前缀的 
长度 */ 

index — getbit ii ， prefix ' ) X 2 + getbit ii ， 
prefix ^); 

pnode — pnode . child \_ index ~\; 
if (抑 0 办 == NULL ) return false ;} 
if ( Zi > Z 2 ) { pgnode ^ pnode . s _ gtrieroot , 
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prefix^preifxi ; } 

else { p gnode 一 pnode • d _ gtrieroot ， prefix — 
preifx 2 ;} 

for zG 1 ••• max(Zi , l 2 ) — min ( Zi ，/ 2 ) { 

index ^ getbit ( i ~\- m \ n(L i ? I2 ) ? prefix ); 
pgnode — pgnode . child \_ index ~\; 
i {( pgnode = = NULL ) return false ；} 
plistnode pgnode . rulelistheader ， retnode *<— 
plistnode ; 
whi \ e ( plistnode ) { 

if ( plistnode . rule — — r ) { retnode — plistnode ， 
return true ；} 

e \ se { plistnode = plistnode . next ；}} 
return false . 

执行完算法 2 以后，如果是添加规则，需要在规 
则不存在的情况下向列表中增加一个节点，如果是 
删除规则，则是在规则存在的情况下删除相应的节 
点，具体如算法3和算法4所示. 

算法 3. addruleir , trieroot ). 
\ iifindruleir ， trieroot ， listheader ) ) return ； 
else insert ( r ， listheader ) • 

算法 4. delrule ( r , trieroot ). 
if if indruleir ， trieroot ， Listnode ) ) 
deleteir 9 Listnode ); 
else return . 

1.3 性能分析 

假设规则维度为1规则的总域宽为 W ， 其中每 
个前缀域宽为 W p (对于 IPv 4 来说 W p = 32)， 剩余 
d ~2 维域宽之和为 h . 可知在最坏情况下本算 
法所构建的 trie 树共有 W p 层，且层数为/的 trie 树 
节点所对应的 gtrie 最多有 — Z 层.进行一次完 
整查找包括搜索混合 trie 结构和遍历链表2部分. 
图2表示了在一次查找过程的时间示意图，其中主 
过程启动了 3个子任务.假设主任务查找到层数为 Z 
的 trie 树节点时启动了一个子任务，那么这个子任 
务需要进行的 gtrie 查找最多为 W p ~ l 次；遍历链 
表所需要的时间则正比于前两维前缀域能够和给定 
数据包匹配的规则数目（假设为 h ), h 取决于规则 
本身的特性和合理性.可以发现，虽然一次查找过程 
中可能需要启动多个子任务，但由于这些子任务为 
并行执行，且每个子任务最多需要经过的 gtrie 节 
点与其本身被启动时主任务所经过的 trie 树节点总 
和一定小于或等于 W p ， 因此本算法查找过程的最 
坏时间复杂度为 0( W p + /0. 另外，由于对规则进行 


了分组，那么最长时间实际取决于拥有最多待匹配 
规则的一个子集，因此，虽然最坏情况仍然是 
o(w p +/o, 但实际运行复杂度则为 o(w p +«a= 
hlm , m 为子集的数目）.最坏情况出现在规则的2 
个前缀规则域的前缀长度分布极度不均匀时，此时 
规则主要集中在前几层 trie 树节点，第2节的实验 
结果也证明了这一点.同理增量删除和添加的操作 
时间为 0( W P ^). 

本文数据结构包括两级 trie 树结构和链表.多 
步长的 tne 树结构空间需求为 0(2 s+1 /s NW P ) ，其 
中 s 为步长，本文中 5 = 2. 单比特 gtrie 树结构的空间 
需求为 0( NW P )， 链表的空间复杂度为 0( NW ^ 2 ). 
因此，本文算法的空间复杂度为 0 GNW )， 且々为 
小于 2 s +1 / s =4 的一个常数. 


Main Task 

Sub Mission 1 
Sub Mission 2 
Sub Mission 3 


W P 





i : Time of Main Task 


1 - 1 : Time for Finding in gtrie 

I_ . __ . I : Time for Traveling the List 

Fig. 2 Time of parallel classification. 

图 2 算法并行查找过程时间需求示意图 


2实验结果 


对本文提出的算法在 Intel ( R ) Xeon ( R ) E 54104 
处理器上进行了实现，每个子任务都使用一个线程 
来完成.实验所使用的数据来自于包分类 benchmark 
工具 ClassBench [16] 所生成的规则集和对应的数据 
包集. 

2.1 规则集分析 

为了全面地测试算法的性能，本文所使用的测 
试规则集包括了 3种最常见规则类型 ， access control 
list ( acl ) , firewall list ( fw ) 以及 ip chain ( ipc ) (生成种子 
分别为 acl 4, fwl 和 ipc 2), 并且每一种类型都包括 7 
个不同规模的规则集规则数目从1 000〜100 000). 

由第 1.3 节中的分析可知，影响基于 trie 树的 
多维包分类算法性能的主要因素有2 个： 1. 两个前 
缀规则域前缀长度的均匀 程度； 2. 每次查找平均需 
要遍历的链表的长度.经过对3种不同类型的规则 
进行分析，图3和图4给出了这3类规则在这2个 
因素上的不同特性.其中图3所示为3类不同规则 
的2个前缀规则域上前缀长度组合的分布情况，图 
中水平方向的2个坐标轴（: c ，： y ) 分别表示2个前缀 
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(b) 



32 28 ^ 

Length of Prefix 1 
(c) 


'V32 
/24 
16 0 < 





20 16^'^ 


Length of Pr e fi x 
(a) 


8 4 0 


2 3 4 2 


16 



—— egt-acl — « — ptne-acl 
一 ■* — egt-ipc — • — ptrie-ipc 
—•- - egt-fw — * — ptrie-fw 


随着规则数目的增长缓慢地增长，1 000规模时为 
4. 19,100 000 时为 66. 43. 


— acl - fw - a — ipc 



Fig. 4 Average number of list nodes in one cycle. 

图 4 不同规模的规则一次查找平均需要遍历的节点数目 

2.2 测试结果 

依照第1节给出评测指标，本节给出了算法在 
上述规则集上的各项评测结果，并与 EGT - PC 算法 
的结果进行了对比.图5给出了查找性能的对比.其 
中虚线表示 EGT - PC 算法查找性能的变化情况，实 
线为本文算法 （ ptrie ) 的结果.从图5中可以看出，在 
规模较小时，本文算法的查找性能与 EGT - PC 算法 
查找性能相当，但是随着规则规模的增大，本文算法 
的查找性能几乎未受到影响，而 EGT - PC 算法的查 
找性能在 fw 类规则上出现大幅度下降，在 acl 类规 
则上缓慢下降.这是由于2个算法在查找的最后阶 
段都使用了基于链表的查找方式，因此查找时间会 
随着一次查找过程需要访问的链表节点数目的增多 
而增加，但本文算法由于使用了规则集分组和并行 
查找，使得每个子任务所需要访问的节点数目大大 
减少，因此受到的影响也很小，这和 1. 3节中的分析 
结果是一 致的； 而且 EGT - PC 算法在查找中需要进 
行横向跳转，规则越多， trie 树饱满程度越高，需要 
跳转的次数也越多，因此性能也随之下降. 


Fig. 3 Prefix length distribution of each rule-set. (a) 
Prefix length distribution of “acl” rules ； (b) Prefix 
length distribution of “fw” rules ； and (c) Prefix length 
distribution of “ipc” rules. 

图 3 具有不同前缀长度组合规则数目分布图 . （ a) ad 
规则前缀长度组合分布； （ b) fw 规则前缀长度组合分 
布； （ c) ipc 规则前缀长度组合分布 

图 4 给出了不同规模的规则集中， 2 个前缀域 
能够匹配给定数据包的规则数目.这也是在一次查 
找过程中平均需要遍历的链表节点数目.可以看出， 
随着规则规模的增大， fw 类型规则平均需要遍历的 
节点的数目急剧增加，从 1 000 规模时的 30. 61 个增 
加到了 100 000 规模时的 467. 82 个.而 ipc 类型的 
规则则几乎没有变化， acl 规则需要遍历的节点数目 


1 2 5 10 20 50 100 

10~ 3 x Scale of Rule-Set 

Fig. 5 Performance of ptrie and EGT-PC. 

图 5 本文算法 （ ptrie) 和 EGT-PC(egt ) 算法在不同类型 
不同规模的规则集下的性能对比 

2 个算法都使用了基于 trie 和链表的数据结 
构，且链表的节点数目又都等于规则的数目，因此 
2 个算法的空间需求主要来自对 trie 树节点存储. 


的长度 < 轴表示每1 000条规则中相应前缀长度组 
合的规则数目.从图3中可以看出， acl 规则的前缀 
长度分布最为均匀，而 ipc 类型的规则绝大部分属 
于极端前缀长度（前缀长度为32或者 0) 规则，这就 
意味着 ipc 类规则主要使用通信双方中一方的 IP 
地址来进行分类， fw 类规则处于二者之间. 
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图6中给出了随着规则规模的增长2个算法中 trie 
树节点数目的变化情况，其中本文算法中的节点数 
目为 trie 和各个 gtrie 的节点之和.可见2个算法的 
空间复杂度都是随着规则数目的增加近似呈线性增 
长.图7和图8对2个算法的更新性能进行了对比. 
其中图7所示为2个算法重构更新的时间对比.从 
图中可以看出，在使用规则集重新构建整个查找结 
构时，本文算法的性能略好于 EGT - PC 算法，但2 
个算法所需要的时间都是随着规则集规模的增大而 
不断增长，当规则集规模超过20 000时，重构一次 
的时间就大于 0.5 s , 当规模达到100 000时，已经超 
过了 1 s . 由于 EGT - PC 算法无法支持实时的增量更 
新，因此图8仅给出了本文算法在不同规模的规则 

♦ ptrie-acl — •^一 egt-acl 
-±— ptrie-ipc 一 «- egt-ipc 



1 2 5 10 20 50 100 

10~ 3 x Scale of Rule-Set 

Fig. 6 Number of trie node of each rule-set. 

图 6 算法所使用的 trie 树节点随规则规模变化关系 

一 -♦- — egt-acl-build — w — ptrie-acl-build 
一 ^— egt-ipc-build • ptrie-ipc-build 



2 1 2 5 10 20 50 100 


10 ~ 3 x Scale of Rule-Set 

Fig. 7 Reconstruction time of PTRIE and EGT-PC. 
图 7 两种算法重构更新性能对比 


一 ■♦- — ptrie-acl-add —^— ptrie-acl-del 
一 — ptrie-ipc-add — • — ptrie-ipc-del 
一 <— ptrie-^v-add —^— ptrie-fw-del 



Fig. 8 Incremental update time of PTRIE. 

图 8 本文算法增量更新时间随规则规模变化关系 


集下进行增量删除和添加所需要的时间.其中虚线 
所示为增量添加所需要的时间，实线所示为增量删 
除所需要的时间.可以看出，本文算法在进行增量添 
加或者删除时，所需要的时间基本上为一个常数，与 
规则的规模和类型无关，并且与一次查找时间在同 
一数量级上. 

3结 论 

包分类技术是整个网络运行体系中的重要支撑 
功能，近年来更是在网络安全领域得到了更广阔的 
应用.本文首先分析了包分类问题在当前所面临的 
挑战，然后在对现有算法进行分析的基础上提出了 
并行包分类算法.与以往研究的最大不同之处在于， 
本文算法没有通过挖掘规则集的内联性来提高查找 
速度，而是利用了多核处理器的并行处理能力，将一 
次查找过程分割成多个可以独立运行的子过程，从 
而在达到较高查找效率的同时保持了单个规则在整 
个查找结构中的独立性，使得算法可以对规则进行 
实时的增量更新.实验结果表明，与 EGT - PC 算法 
相比，2个算法的空间需求均与规则集规模呈线性 
关系，而本文提出的算法在保持高效查找性能的同 
时，将规则的增量更新速度提高到了和匹配速度相 
同的量级，同时分组及并行查找的应用还使本算法 
对规则集的类型和规模的敏感度大大降低，具有良 
好的扩展性. 

以后的工作中，我们将在本算法的基础上进一 
步结合规则子集的特性，对不同的规则子集使用最 
合适的查找算法，从而实现查找性能的进一步提高. 
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AACF : 基于逻辑的非单调授权与访问控制框架 ® 

包义保②•“ 殷丽华 • 方滨兴 • 郭莉* 

( •中国科学院计算技术研究所倌息智能与信患安全研究中心北京 100190) 

(** 解放军信息工程大学电子技术学院信息安全技术系郑州 450004) 

摘要针对不完全语义条件下的非单调授权和权限判决问题进行形式化研究，提出了 
一种新的基于逻辑的非单调授权与访问控制框架 一 AACF 。 该框架通过扩展型分层逻 
辑程序表达授权与访问控制策略，支持不完全语义条件下的非单调授权、权限传播及冲突 
检測与消解等高级特性，此外， AACF 的语义查询/权限判决算法的计算复杂度证明是多 
项式级的。因而， AACF 比现有的访问控制框架具有更好的表达能力和计算特性，且具有 
更好的实用性。 


关键词 授权与访问控制，框架，安全 策略， 


0引言 

访问控制是实现信息安全的关键技术之一。访 
问控制技术是指通过访问控制机制介入资源访问过 
程，根据访问控制策略对每个访问请求进行权限判 
决并裁定是否允许访问请求者访问 m 。自访问控 
制概念出现以来 [2] ，研究人员提出了许多访问控制 
模型，并对访问控制模型的表达能力、权限判决 
及安全属性验证的可判定性和计算复杂度等问题进 
行了探讨。传统的访问控制机制 >5] —般依赖于特 
定的策略表达方式和实现机制，灵活性和适应性受 
到严重制约。近年来，人们尝试设计一种至少具备 
以下功能的通用授权与访问控制框架: ( 1 ) 用统 
一的规范语言表达不同的安全策略，并进行统一管 
理; （2) 能够根据系统运行环境的变化快速调整访 
问控制策略，同时保持访问控制机制不变。以上两 
点不仅要求访问控制框架具有灵活的表达能力，而 
a 要求其访问控制机制算法统一、简单高效,降低出 
现漏洞的概率，从而使其成为可信计算基 （trusted 
computing base , TCB ) 的一 部分。 这一思想在实际 
的系统中也得到了应用 [9] ，文献[7, 8] 在这方面进 
行了良好的尝试。 

本质 t 说，访问控制策略表达是一种知识表达, 
使用逻辑来表达知识是一种极为重要的方法 [1 ° ] 。 


语义，逻辑程序 

由于逻辑 具有一 系列良好的特性和能力，如描述问 
题的精确性及非单调推理能力等，使得它适合于表 
达授权与访问控制策略中的规则及权限传播等特 
性。使用逻辑作为丁_具研究访问控制问题起源于上 
世纪70~80年代 [u] 。 研究人员认为 ，一 阶逻辑基本 
上能够满足形式化描述科学问题的需要。但是，直 
接使用一阶逻辑表达的访问控制策略，其权限判决 
的计算复杂度可能极高或不可判定 :12] 。为此，需要 
从语法上对一阶逻辑进行限制，选取一阶逻辑的一 
个片段，强制其具备可计算特性。目前.实现该思想 
的方法主要分为两类,一类直接对一阶逻辑语法进 
行限制 [121 ,另一类利用现有的逻辑系统，如逻辑程 
序系统 M 31 。 逻辑程序语言是非过程语言，具备表述 
性语义，逻辑程序子句是自描述的，子句之间没有次 
序限制，这符合策略对规则的语法 要求; 逻辑程序具 
备统一的程序性语义和语义査询算法，这符合权限 
判决的 统一性 要求。由此可见，用逻辑程序表达授 
权与访问控制框架具有较大的优势。通过逻辑程序 
表达授权与访问控制策略起源于文献 [6] ，它通过 
逻辑程序统一编码各种类型的访问控制策略，通过 
逻辑程序语义査询算法实现统一的权限判决。虽然 
文献 [6] 提出的框架支持不完全语义条件下非单调 
授权与访问控制逻辑的表达，但其权限判决算法却 
是不可判定的 s 在文献 [6] 的启发下，文献 [7, 8, 14] 


① 863计划（2009八人01汉38,2009人众01汉31) ,973计划 （2007 cb 31 丨 100) 和国家自然科学基金 （6070302 1 ) 资助项目 

② 男，1976年生，博士生， 讲师; 研究方 向：网 珞安全，安仝性分析，安全 策略; 联系人, E - mai 〗： baoyibao 99@ yahoo . com.cn 
(收稿日期 :20 HMl -29) 


— 460 — 




包义 保等: AACF : 基于逻辑的非单调授权与访问控制框架 


分别提出了利用不同类型的逻辑程序构建授权与访 
问控制统一框架的方法。虽然这些方法所构建的框 
架都具有确定性的权限判决算法，但并不具备表达 
不完全语义条件下非单调授权与访问控制逻辑的能 
力。本文立足于扩展型分层逻辑程序理论，提出了 
一种基于逻辑的非单调授权与访问控制逻辑框架 

(a logic-based framework of nonmonotonic authoriza ¬ 
tion and access control , 缩写为 AACF)。AACF 与上 
述框架相比有下列优势 ： u ) 具备强大的策略表达 
能力，能够简捷灵活地表达出各种具有复杂控制逻 
辑的访问控制策略，所表达策略的语义丰富、 精练； 
(2) 不仅能够表达不完全语义条件下的非单调授权 
与权限传播，同时还保证其权限判决的计算复杂度 
是多项式 级的； （3) 支持灵活的授权异常处理，从而 
可以细粒度地表达出复杂的授权空间。 

1访问控制系统的建模与表示 

本节首先形式化地给出访问控制的一些基本概 
念，以便于建立访问控制系统的抽象模型，然后讨论 
通过逻辑程序表达这些概念的方法，建立访问控制 
系统的逻辑程序表示，进而形成 AACF 安全策略语 
言。该语言不仅可以表示通常意义上的访问控制规 
则，还可以表示闭世界假设规则、允许异常规则及约 
束规则。最后通过一个基于角色的访问控制 
( RBAC ) [5] 策略实例说明利用 AACF 安全策略语言 
编写访问控制策略的基本方法。 

1.1 访问控制基本概念及建模 

授权与访问控制涉及的因素繁多，主要由主体、 
客体和访问行为三个基本要素组成 t 2] 。 在本文中， 
所有主体构成的集合记为 S ， 所有客体构成的集合 
记为0,且 S £ 0。所有访问行为构成的集合记为 
且 <4 = U ,, s 0 act ( o ) ,这里 acf ( o ) 表示针对客体 o 
的所有访问行为的集合。客体被分为若干种类型， 
每种类型客体对应一个访问行为集，不同类型客体 
的访问行为集的交集为空集。访问控制系统中所有 
实体构成的集合记为£，且£ = 0 U 4，所有实体之 
间的关系通过谓词表示。 

信息系统为实现访问控制所采用的模型、策略 
和机制的总和构成一个访问控制系统。信息系统运 
行过程中主体对客体的一次访问行为称为访问请 
求，但该请求是否被允许则取决于访问控制系统的 
判决 结果。 每个访问请求可表示为一个三元谓词 
req ( s , o , a ) e S x 0 x 4。每个 2 元组〈 0 ， a ) e 0 


x A 称为一个访问权限。任一个 4 元组 〈 s ， A ， o , 
a ) eSxj +，-«， 丄！ - x .0 xA 称为允许 （+ )/ 禁' 
止 （n )/ 未指派（丄）主体 * 拥有访问权限〈0, a 〉， 
用带有下标的3元谓词 pmnit A ( 4 , a ) 表示，其中 
permit ^ ( s , o , a ) 称为正向权限， permh ，（ s , o , a ) 
称为反向权限。所谓授权，是指在主体、客体和访问 
行为之间建立一种关系，而这种关系代表主体对客 
体的一种访问能力。通过授权在主体和客体之间建 
立的访问能力，称为主体和客体之间的授权关系。 
在本文中，每个授权关系可形式化地表示为带有下 
标的5元谓词 prvl x ( s , o , a , a , g ), 其中 ： X e 
1+,- I 表示允许 （+) 或禁止卜 ） 主体^拥有访问 
权限〈0, a >， s 表示类型为主体的变量， 0 表示类型 
为客体的变贵， a 表示类型为访问行为的变董，£7表 
示 s 能够拥有该权限的前提条件 ， g e C 表示授权 
者，即某个权限管理员， C 表示所有权限管理员的 
集合。所有授权关系构成的集合称为授权关系集。 
显然，每个授权关系在上的投影 
( s , o , a , o -, g ) ) 表示主体 s 拥有的访问权 
限 permit 山， o , a ) 0 

访问控制系统 （ ACS ) 可形式化地表示成= 

( S , 0, A , G , M , P , 产〉 ，其中 S 、 fM 、 G 分别表示 
访问控制系统中的主体、客体、访问行为和权限管理 
员的 集合； . W 表示访问控制策略模型，如 BLP ( Bell - 
UPachila ) 模型、 RBAC 模 型等； P 表示授权关 系集； 
P ' 表示为维护系统安全运行所需策略的集合，如权 
限传播策略、冲突消解策略、完整性约束策略、默认 
策略等 :7] 。 

从授权与访问控制的角度来看， 4 CS 是所有主 
体拥有的权限的集合，该集合的内涵 4 CS , 由 4 CS 的 
内部结构决定，而外延为由 ACS , 推导出的所 
有形如 permif + ( s , o , a ) 和 permit 、（ s ， o ， a ) 的常量 
谓词构成的集合。如果同时包含 permd . ( s , 
o , a ) 和 permit ( s , o , o ) ,则 4 CS 是一个有权限冲突 
的访问控制系统。权限冲突有时是因系统错误或权 
限管理员的疏忽造成的，有时也是迫不得已而引入 
的。因此，访问控制系统应有明确定义的权限冲突 
检测算法与消解 策略。 

对于访问请求 reg ( s ， o , a ) ，若 permit , ( s , o , a ) 
e ACS l 且 permit ， ( s , o , a ) 6 -4 CS £ , 则权限判决应 
返回“冲突错误”；若仅有 permit , ( s , o , a ) £ ACS E , 
则应返回“允 许”； 若仅有 e ACS E , 
则应返回“禁 止”； 如果 ( s . o . a ) « 且 
permit ，( s , o , a ) ^ ACS e , 则返回“未指派”。 
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安全属性而设罝的，它并不影响访问控制策略的语 
义。约束也可通过规则表达出来，如定义5所示。 
例如，通过约束规则□— pemitU , 人入）， 
- permit ( X ,, X 0 , X a ) 可实现 4 CS 中的冲突 检测。 

定义 5( 约束规则） ：形如 □ Pos ( r ), not 
Neg ( r ) 的规则为约束规则。对于由任意文字构成 

则 C 违 

反了约束 规则; 否则 C 满足约束规则。。 

由上述规则编写的逻辑程序称为 AACF 安全策 
略，其相应的语言称为 AACF 安全策略语言。 

1.3 AACF 安全策略语言使用示例 

本节通过表达标准 RBAC 策略的过程说明 
AACF 安全策略语言的使用方法。基本 RBAC 的最 
小功能主要包括 15) 将权限指派给角色和将角色指 
派给用户。前者称为角色授权，后者称为角色指派。 
除基本 RBAC 外， RBAC 模型分层、角色分层和职责 
分离约束等髙级特性在 RBAC 中也非常重要。文 
献 [5] 描述了一种标准的 RBAC 模型分层方法，其 
关键特性如表 2 所示。 



表2 

RBAC 模型分层的关键特性 

层 

RBAC 分层 

功能描 4 

1 

RBAC F 

用户-角色之间的多对多授权关系，角色-权限 
之间的多对多授权关系。 

2 

RBACff^ 

RBAC F +无限制的角色分层 

仙从咖 

RBAC f + 受限制的角色分层 

3 

RBACq^ 

RBAC^ + 职责分离 ( Scparaiion of Duties, SoD) 

RBAC^g 

RBAC 沿 B + 职责分离 （ Separation erf Duties, SoD) 


AACF 安全策略语言表达 RBAC f 如表3所示, 
表达结果为扩展型逻辑程序，记为这里 
I assigned,activate ( £ act ( r ) 表示针对角色的两个 
访问行为， Br 角色指派”和“角色激活"。 

表 3 C, 到 AACF 的映射 

中的兀索 |5: ~~ AACF 中則 

将夂指派给 prvl{X^X,,assigned, X,) 

太，将 U 。， 夂〉授予又 pnd(X,, X„, X,. X t ) 

权限 传播： Jermu(X„X 0 ,X,) *-prvl(X, ,X„,X a ,X,) 

这里 dermii(X i f X a ) permit(X u t X c ^X a ) 4 — 

表不尤，通过权限传播 dermil (U, ， assigned ), 

获权限 (X 9t X m ) dermit(X rf X ot X a ) 


向 H KBACf 中加人规则 
dermit ( X u , X 0 , X a ) •»— 

prvl ( X u , X n , assigned , X f[ ), 
prvl { X r2 , X 0 , X a , X g 2 ), X ri <„ X n (2) 


即可表达 rbac ^, 表达结果记为 , 这里 
表示角色分层关系。该规则表示高层角色可以 
继承低层角色的正向权限，即低层角色的正向权限 
自动传播到髙层角色。若高层角色从两个不同低层 
角色分别继承了相互矛盾的正向权限和反向权限， 
则高层角色事实上仅继承了正向权限，即采用“正 
向权限优先”策略冲突消解方法。若要采用“反向 
权限优先”策略冲突消解方法，则只需要将上述规 
则替换为规则 

dermitiX^ X„, X a ) *- 

prvl(X u , X ri , assigned, X gi ) , X n 
prvl(X ti ,X 0 ,X a ,X g2 ),X rt < H X r} , 
rwt-^ pnd(X ri , X v ,X a , X n ) (3) 

即可。 

由此可见， AACF 利用扩展型逻辑程序系统的 
推理能力，可以实现 RBAC 角色分层和权限继承等 
特性。众所周知， RBAC 仅允许通过角色之间的层 
次关系单调地传播正向权限，从而达到简化授权、防 
止策略冲突的目的。而上述示例说明， AACF 不仅 
可以模拟 RBAC 权限传播的行为，还可对其进行有 
意义的扩展。 

在保证可计算性的条件下,向中加人更 
多的规则，可以实现更符合实际要求的 RBAC 策略。 
例如，向 n 舰 c 似 中加人 

1\: prvl(X uf r, assigned , X g ) <— 

X u e Group( GN) , not ab(l x , X u ) (4) 
l 2 ： 06 ( X v ) *-X„ e Group(GL) (5) 

这两个规则。可实现组内用户角色指派的差异化。 
其中，第一个规则是允许异常规则，表示“通常情况 
下，如果用户属于组 GiV , 则该用户被自动指派角色 
r ， 但既属于组 G ； V 又属于组 GL 的用户除外”。例 
如，为了保证软件代码的健壮性，金融软件开发小组 
成员（即组 G / V 中的成员 ） 可以修改代码，但该小组 
中新来成员（即组 GL 中的成员）除外。这一特性在 
现有的安全策略语§中无法轻易地表达出来。 

向 U 似 加入相应的 SoD 约束，则可形成表 
示 RBAC aA 模型的逻辑程序 Il „ WCcM 。 SoD 分为静态 
SoD 和动态 SoD , 静态 SoD 要求不能将相互排斥的 
两个角色同时指派给同一用户，动态 SoD 要求同一 
用户不能同时激活相互排斥的两个角色。用 SSZ ) 
C /? x ft 表示静态角色互斥关系，用 DSZ ) £/? x ft 表 
示动态角色互斥关系。设它们对应的谓词分別为 
ssd ( X ri , X ri ) 和心 dU r ,， ^),则在不允许继承情 
况下静态 SoD 约束规则可表示为 
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口 *- prvl ( X u> X , ( , assigned , X g} ), 
prvl ( X u , X ri , assigned , X g2 ) , 
ssd ( X rt , X ri ) (6) 

考虑到继承情况，上述规则应更改为 
D *— permit ( X u , X , t , assigned ) , 
permit { X ^ , X r ^, assigned ), 

ssd ( X ri , X ri ) (7) 

这是因为 permit 已经考虑了权限传播问题（参见 
表 3 h 若把“判断用户能否激活某个角色”看成是一 
种动态权限，则动态 SoD 可由下列两个规则 表示： 
permit ( X u , X r ,, activate ) *— 

dsd ( X r] , X ri ) , 1 active ( X u , X r[ ) (8) 
permit ( X u , X tf , activate ) +— 

dsd ( X ti , - active { X u , X r} ) (9) 

至此，我们通过 AACF 安全策略语言表示出了 
RBAC f , RBAC ^^ BAC^o 类似地，0了 以得到 
RBAC mk , 在 AACF 中的表示。同上所述， 

AACF 可容易地表达出诸如 HUR [2] 、 BLP 131 , 
Biba t 4] 、 FAFM 等具有各种特性的各种类型的安全 
策略限于篇幅，这里不再赘述。 

在传统的访问控制中，信息系统一般和特定类 
型的安全策略紧耦合，其访问控制机制也硬编码到 
信息系统中，难以史换和升级。然而，在 AACF 中， 
各种类型的安全策略都可通过扩展型逻辑程序表达 
出来，因而具有共同的访问控制机制实现方法，这给 
信息系统中安全策略的管理带来了极大的方便。例 
如，某信息系统初始时决定使用 HRU 类型的访问控 
制策略，运行一段时间后决定更换到 RBAC 类型的 
访问控制策略，再后来乂要求更换到 BLP 和 Biba 类 
型的访问控制策略。如果使用传统的访问控制实现 
方法,则需要修改访问控制机制实现方法，代价巨 
大。显然，若使用 AACF 作为其访问控制的实现框 
架，则信息系统在随后的运行过程中，可容易地更换 
其安全策略类型，而不需要修改其访问控制机制。 

2 AACF 语法规范和语义 

直观地讲，逻辑程序的语义是指在给定的解释 
域上逻辑程序能够推导出的结果集。由于非单调逻 
辑运算符 “ not " 的引人，使得扩展型逻辑程序可能 
存在多种类型的语义模型 "、到 底哪一种语义模型 
是其正则语义，目前未有定论。 AACF 采用扩展型 
逻辑程序作为其理论工具，为了保证 AACF 描述的 
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每个策略都具有唯一的语义模型，需要给出相应的 
语法规范。对于一些特殊结构的逻辑程序，如分层 
逻辑程序 （stratified logic program , SLP ) 和局部分层 
逻辑程序 （locally stratified logic program , LSLP )〖 2I; , 
其各种不同类■的语义模型本质上是等价的。因 
此，从安全的角度來看， SLP 和 LSLP 比较符合 
AACF 的意图。 

2.1 AACF 语法及其约束 

通过前面的讨论可知， AACF 将访问控制策略 
编码成扩展型逻辑程序，将权限判决编码成针对扩 
展型逻辑程序的查询。在本节中， AACF 通过引人 
恰当的语法约束保证其编写的每个访问控制策略都 
是 SLP ，从而保证它们对所有的査询都能够在多项 
式时间内处理完毕。 

AACF 中所有的谓词符号分为两 类：一 类是预 
置的、具有固定涵义的谓词符号，它们构成 AACF 安 
全策略语言的核心，如表4所示，这里 Lit ( B ) 表示 
樂合《中的谓词符号能够构建的所有文字的集合； 
另一类是由访问控制策略管理员根据实际需要定义 
的谓同符号，其涵义由管理员指定。 

设 r 为逻辑程序 n 中的规则，若6 Head ( r ), 
l 2 则称 Z, 在 n 中依赖 / 2 ，记为 

显然，关系具有传递性，即若 ^ n l 2 Rl 2 s n /,, 
则 A = U e Lit ( U ) I l <, n L \ 表示文 

字 / 依赖的所有文字的集合。 AACF 的语法约束有 
以下 三种： 

( 1 ) Def u (et e Lit ( EtRel )) 中规则的语法约 

束。 定义 IMEtfiel ) 中的文字只能使用/力(心 / fe /) 
中的元素，即 Body ( Def n (et e Lit ( EtRel ))) C 
Lit ( EtRel ) ，且 是 Ho = 上 

关于 . Veg ( n „) 的部分分层关系（参见定义6〉。 

(2) De/ n (et e Lit ( AoRel )) 中规则的语法约 

束。 定义 Lit ( AoRel ) 中的文字只能使用 Lit ( EtRel ) 
U Lit ( AoRel ) 中的元素，即 Body ( Def n (el e 
Lit ( AoRel ) )) Q Lit ( EtRel ) U Lit ( AoRel ) , 是 
rii = Def „( et ) 上关于 / Veg ( n ,) 的邢分 

分层关系。 

(3) 约束和监控规则的语法约束。由于 II 中 

的每个谓词&(»•，•••）的第一个参数都为常最，因此 
可以将之看成新的谓词(…）。若 r e n Q ，则 r 必 
须符合 （1); 若 r e n ,， 则 I •必须符合(2)。文字 □ 
的定义可以使用除 &(•••) 和□之外的所有其它文 
字，即 Body ( Def n ( U )) e Lit ( n ) - | 

afc (… ） I 。 
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表4 AACF 中的谓词 

谓同（前缀或屮缀表示法） 语义描述 

Lit ( EtRel ) ：EtRel 表示所有实体之间关系的谓词名称的 集合； 每个元素 et e Ut ( EtRel ) 可以是0,1, 
-, n 元谓闻 1 ，例如，实 体属 性谓饲、分层关系谓词、偏序关系谓词等，如下所示。 

实体属性谓词 o «( e , a , 

分层关系谓词 6： S„ C 
鴒序关系谓词6 
格关系谓词6 
等价关系谓词6 = c 

厲子关 系谓词6 e « B ) 

Lit ( AoRel ) ：AoRel 表示所有和授权相关的谓词名称的 集合; 每个元素 ao e Ut ( AoRel ) 可以是0,1, 
…， n 元谓同，例如， prnf ( X , ,尤，％•， X g ) ^ dermit ( X ,, X ,, X ,) s permit { X ,, X ,, X ) 。 

prvl ( X ,, X c , X a , X ,) 权限管理员 \ 将访问权限 U •，总 > 授予主体 X ,。 

dermu ( X ,, X ^, X ,) 由 ACS , 可推导出“允许夂拥有权限 ( X ,, 夂>”。 


实体 e 具有属性叫> 0) 0 
实体6和<：之间具有分 M 关系。 

实体6和 c 之间具有備序关系。 

实体6和 c 之间具有格关系 
实体6和 c 完全相同。 

实体6是（或者不足）实体 B 中的一个元素，例如 U e X r ^ 表示主体 
u 是组 X Cnmf 中的一个成员。 


permit(X,, X.) 允许主体夂拥有权限 <弋，夂>。 


约束 

谓词 

ab( id， …、 

□ 

d 标识的规则中的异常信息，用于构建允许异常规则。 

所有的文卞集合都包含这个0元谓词，用于构建约束规则。 

注1:0元谓词也称为常量谓饲。 


定义6 (分层和部分分层关系） ：设 /?为有限集 
S 上的一个二元关系，若存在 S 的一个划分 | S;I i = 
0,1 使得:对于任一 若* e •，则有 y 

e Uj ^ Sj , 则称 R 为 S 上的分层关系 ，相 应地， S 4 称 
为 S 的第*层。设/?为 S 上的分层关系， B 为 S 的 
子集 ，对于任意的 a ： e S ,.，0 矣 i 矣 e fi , 若 x / tyr , 
有 y e U ;< i S ; ., 则称 R 为 S 上关于 B 的部分分层关 
系。显然,分层关系都是部分分层关系 c 

定理1:符合上述（1)、（2)、（3)语法约束且具 
备一致性的扩展型逻辑程序是分层逻辑程序。 

证 明:设 n 为一个符合上述 （ 1 ) 、（2)、（3)语法 
约束的逻辑程序,首先利用文献 [18] 中的方法将 n 
转换成不含”的逻辑程序 n + 。 接下来如果能够 
证明 n + 为 slp , 则 n 显然也是 slp 。 

由于 rr 中的/ I 元谓同 《6( r ， '，…，总_,)的 
第一个参数都为常数,因此可将之看成/» - 〗元谓词 
ab r ( X lt X ,,.,),这不会改变 IT 的语义模型。 
由上述（1>、（2)、（3)约束可知，可设11 + = n 0 + U 

nr 。 

令 a ,(0 表示文字 f 在 rv 的分层的序号。由 
约束 （1) 和 (3) 可知，当 r e 扣 时，人。（价^(0)為 
max (/ e A 0 ( Pos ( r ))； 由约束 （2) 和 （ 3 ) 可知，当 r 
e 11| + 时， A ,( Wead ( r )) ^ max (/ g A ^ A ^ r )〉。 
因而 n n + 和 n / 都是分层逻辑程序。由约束 （1) 和 
(2) 可知 iv 没有使用 nr 中的谓词，因而可构造 
rr 的分层映 射函数 


A (/) = 

f A 0 (/) l b LU ( n 0 ) 

max (\ 0 ( L ) ) + A (/) + 1 / e ） 

LaPosdJo ) 

■ max ( An (^)) + max A ( L ) + 1 / = D 
l « Po >(/7 0 ) 

( 10 ) 

由文献 [21 ] 中相关定义可知, IT 是分层逻辑程序。 
证毕。 

显然，在 1. 3节讨论的访问控制策略 n RiMCr , 
n «„ c ^ 和 n RBACoA 都是分层逻辑程序。 

分层逻辑程序一定是局部分层逻辑程序，但判 
断一个逻辑程序是否为局部分层逻辑程序是 np - 完 
全问题 221 。因此， AACF 推荐使用 SLP 表达授权与 
访问控制策略，而不使用 LSLP , 以免出现不可判定 
的访问控制策略。 

2.2 AACF 语义模型及查询处理 

默认非 “ no r 的引人使得扩展型逻辑程序可能 
存在多种不同类型的语义模型。 AACF 使用扩展型 
分层逻辑程序编码访问控制策略，因而 AACF 的访 
问控制策略中也可能存在这是表达不完全 
语义环境下非单调授权与访问控制策略所必需的。 
由于 AACF 具有明确的语法限制，从而使得 AACF 
表达的访问控制策略不可能拥有多种不同的解释， 
不会造成语义上的困扰，因而用于表达访问控制策 
略是合适的。下面以稳定语义模型作为讨论对象。 
不含”的分层逻辑程序的稳定模型，最坏情 

— 465 — 




S 奴 S 实絲糊 


权关词 

授相谓 



高技术通讯2012年5月第22卷第5期 


况下的语义査询算法的时间复杂度是多项式级的， 
使用扩展型逻辑程序的 AACF 同样具备这样的特 
性，定理2说明了这点。 

定理 2: AACF 通过扩展型逻辑程序表达的访问 
控制策略都具有唯一的稳定语义模型，其语义査询 
是可判定的，且具有多项式级的时间复杂度。 

证明 ： 由定理丨可知 AACF 中的逻辑程序 n 都 
是 SLP。 利用文献 [18] 中的方法将 n 转换成不含 
”的逻辑程序 rr ,由文献[23 , 24] 可知， rr 具 
有唯一的稳定模型财 n + ， 由文献 [20] 可知，可在多 
项式时间内计算出 w n+0 利用前述转换方法的逆过 
程将转换成 . W no 如果是一致的，则就 
是 n 唯一的稳定模型，因而，语义査询可在多项式 
时间内处理完毕。如果—致， AACF 可在多项 
式时间内完成其不一致性检测，并在冲突消解规则 
的作用下完成最终决策。证毕。 

通常情况下，逻辑程序是在闭世界假设条件下 
进行语义计算的 [ ~。那么将闭世界假设加人 SLP 
后，原 SLP 所具备的语义特性及计算特性是否会发 
生改变呢？我们有下述 结论： 


定理3:设 n 是 AACF 中的逻辑程序，文字/矣 
n, 则在 n 中加人闭世界假设规则/ — 后，其 

语义特性(具有唯一的稳定模型）及计算特性 （ 杳询 
处理可在多项时时间内处理完毕）保持不变„ 

证明： 由定理2可知 n 具有唯一的稳定模型 
仏。由文献 [18:. 中的命题4及文献 [25] 中的命题2 
可知， n U \l^-notl\ 具有唯一的稳定模型 Wn U 
\ i：l « 由于 n 的査询处理是多项式级的，因而 

n U \ l ^ noll \ 查询处理也是多项式级的。证毕。 

访问控制系统应为每个形如 *— permit(s,o,a) 
或 •*- 1 /) mnit ( s , o ， a ) 的常置查询给出肯定或否定 
的判决结果，而 AACF 可能输出“未指派”的判决结 
果。为此， AACF 处理方法 如下： 首先， AACF 为 n, cs 
中的每个授权相关的谓词符号都建立一个唯一的闭 
世界假设规则，所有这些规则构成闭世界假设规则 
库; 其次，当 AACF 接收到査询请求时，它先査询 
n ^, 如果返回肯定或否定的判决结果，则直接将 
之返回给査询者。如果返冋“未指派”，则使用该査 
询再次査询闭世界假设规则库，从而最终得到肯定 
或否定的判决结果。 


表5 AACF 和现有基于逻緝程序的授权与访问控制框架的比较 


特性 

AACF ' (本文的工作） 

Woo 1 * 3 

FAF : 81 

DKAL 141 

理论基础 

扩展型分层逻辑程序 

扩展型逻辑程序 

分层逻辑程序 

Datalog 

计算 复杂度 

多项式级 

不可判定 

多项式级 

多项式 

支持 " 

支持 

支持 

不支持 

不支持 

支持“ 

支持 

支持 

部分支持 

不支持 

非单调授权 

支持 

支持 

部分支持 

不支持 

异常处理 

支持 

未明确 

不支持 

不支持 

权限传播与冲突处理 

支持 

未明确 

部分支持 

部分支持 


3结论 

本文在逻辑程序理论的基础上，提出了一种统 
— 的授权与访问控制管理框架 AACF 。 由表5可以 
看出，和已有的授权与访问控制框架相比, AACF 具 
有明显的优势。 AACF 通过扩展型分层逻辑程序表 
达各种具体的访问控制策略，具有良好的表达能力 
和语义査询效率 3 它通过合理的语法规范保证编写 
的每个访问控制策略的语义査询的计算复杂度都是 
多项式级的，从而对应的权限判决的计算复杂度也 
是多项式级的。由于 AACF 同时支持 “ not " 和 S ” 
两种不同类型的“非”，使得 AACF 自然地具备一系 
列现有授权与访问控制框架不具备的髙级特 性：支 
持不完全语义条件下的授权与权限传播，支持非单 
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调授权与访问控制逻辑的表达和语义查询，支持通 
过异常规则表达冲突检测与消解策略，支持通过完 
整性约束规则为访问控制策略提供安全监控和验证 
服务,等等。所有这些高级特性表明 AACF 是一个 
完整意义上的授权与访问控制框架，可应用于现实 
环境中。值得注意的是，我们从理论上保证了这些 
高级特性没有增加访问控制策略决策算法的计算复 
杂度。 
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AACF : a logic-based framework of nonmonotonic 
authorization and access control 


Bao Yibao •“， Yin Lihua * , Fang Binxing 4 , Guo Li * 

(* Institute of Computing Technology , Chinese Academy of Sciences , Beijing 100190) 

(” Institute of Electronic Technology , PLA Information Engineering University , Zhengzhou 450004) 

Abstract 

On the basis of researching formally on the complex security policies with nonmonotonic authorization and ac ¬ 
cess control logic under incomplete context knowledge , this paper proposes a unified logic-based framework for non ¬ 
monotonic authorization and access control ， called AACF . The AACF declares nonmonotonic authorization and ac ¬ 
cess control logic through the extended and stratified logic program . With the proposed syntax structure in this pa - 
per，as a full-fledged authorization and access control framework , the AACF naturally possesses some advantages 
such as nonmonotonic authorization , authorization propagation , and conflict checking and resolution . Furthermore , 
the computational complexity of the semantic query evaluation ( i . e . , access control decision ) algorithm of the 
AACF proved to be polynomial . Hence , the AACF has the better expression ability and computing characteristic 
than the existing ones . 

Key words ： authorization and access control , framework , security policy ， semantic , logic program 
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快速的多模式匹配算法 
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摘 要： 在基于有限状态自动机的多模式匹配算法 （ DFS 4 算法）基础上，结合 Tuned BM 算法的优点，提出 
一个快達的多模式字符串匹配算法，实现了多模式匹配过程中不匹配字符的连续跳跃.在此基础上进一步改 
进，得到一个最差时间复杂度为线性的匹配算法.分析指出算法实际比较的字符数随着模式串长度的增加而 
下降，并随模式集的增大有所增多.实验表明，在模式串较短时，算法需要的匹配时间仅为 AC 算法的1/2到 
1/3， AQR 算法的9/10 左右； 在模式串较长时，所需时间为 AC 算法的1/4至 1/8， AQR 算法的3/4左右. 

关 鍵词： 字符串 匹配； 有限状态自 动机； TuncdBM 算法； 多模式 匹配； 时间复杂度 
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hi proved algor ithm s for m ultf)le patterns matchhg 

YINLi - hua , FANG B in - xing , ZHANG Hong-li 


(Research Center of Computer Nekvoifc and Iifemation Security Technology，Haibiii iistitute of Technology , 
Haibiii 150001， Chiua , Email ; yiiilli@hit edu cn ) 


Abstract : Canbinedwilh the advantages of the Timed Boyer - Moore algorilhn，an effective algoritim for per 
fom ing multp le patterns matching in a striiigwas put fonvard on the concq ) t of detem iiiistic finite state autana - 
ta ( DFSA .) , and achieved better peifomiance by shifting unii atched characters consecutively E^erinental ne - 
sults indicate that to search a string , the algoritim takes only 1/2 〜 1/3 tiiat ofAC and 9/10 ofAQR in case of 
鐘 lo rt patterns while the ratio is 1/4 〜 1/8 and 3/4 hi case of bng patterns 

Key words : string match ing finite state automaton : Tuned BM algoritiiii ; multi ) le patterns matching ; can - 
putational complexity 


在单模式匹配算法中 ， Boyer - Moore 算法 [1] 
(简称 BM 算法）是一种经典的跳跃式匹配算法. 
QS 算法 [2] 是 BM 的一种简化形式，充分利用了模 
式串中本次匹配不成功的信息，实现文本的快達 
匹配. TunedBM 算法 [3] 也是 BM 的简化实现. 

多模式匹配中比较经典的算法是 Aho - Cora - 
sick 自动机算法 [4] (简称 AC 算法），该算法基于 
有限状态自动机 DFSA . ( detem in istic finite state 
autanata ) ，在匹配前对模式集进行预处理，构造 
一个树型有限自动机.然后只需要对文本进行一 
次扫描，就可定位出模式串在文本中的所有出现 

收稿 日期： 2005 - 10 - 27 
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位置.时间复杂度在最优和最坏情况下均为 
O ( n ) . Jang - Jong Fan 和 Keh - Yii Su 将 BM 算 
法和自动机算法结合并进行改进得到的 FS 算 
法 [5] ，王永成等在自动机算法的基础上结合 QS 
算法的思想，并进行改进得到的反向跳跃自动机 
( AQR ) 算法 [6] 等都有效的提高了多模式匹配算 
法的達度. 

由于 TunedBM 算法在单模式匹配中的优异 
表现 n 1 ，本文在有限状态自动机算法基础上，吸 
收 Tuned BM 算法的思想，提出改进的多模式匹 
配算法.使得在匹配过程中，能够在实际比较之前 
跳过尽可能多的字符，減少字符比较的操作，实现 
对文本的快速匹配.并针对算法的匹配速度，提出 
了进一步的改进，使其最差情況下的时间复杂度 
为 O ( n ). 
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1算法描述 

根据 Tuned BM 算法的特性，算法是从模式 
串右端向左逆向匹配.在匹配前把模式串集合转 
换成反向有限自动机，得到 goto 函数和 ouput 函 
数； 同时根据模式串集合中出现字符的分布，得到 
ski )( c ) 和 diifl ( c ) 函数. 

匹配算法吸收了 Tuned HVI 算法的思想，利 
用匹配过程中匹配失败的信息，跳过一些字符不 
匹配.进行模式匹配之前，首先在文本 string 后加 
上 / m „ 个模式串的尾字符（任一模式串），以使算 
法正确结束.一般地，设某一次匹配从 j = / mm - 
1,打77«§ /"p +/7升始，首先查找 skj ) 函数，；3值随 
永办值增加，直到找到某一模式的尾字符，即汆 i ) 
(string [p + j ] ) =0,然后按照自动机 goto 函数 
向左匹配，如果匹配成功，则令= j - 1,匹配下 
一个 string / " p +/7; 如果匹配失败，则令 p =p + 
diifl ( string[p + L m - 1]), 重新开始一次匹配.在 
匹配过程中，如果成功匹配到某个模式串，則输出 
模式串在文本中的位置. 

永 jj ( c ) 的值为 c 在模式串中最右出现的位 
置到该模式串尾的距离，但是其值不能超过/ mm , 
因为如果超过，那么最短的模式串就有可能 
漏过. 

永 p ( c ) 和 shift ( c ) 的定义如下： 
skip ( c ) = 

min,y I P k [ m k - j ] = c , 1 < _/ < “， 

\ <k < r }, c 6 { P }, 

U . { P }. 

shifted = skip ( Ptfm k - 1 J ), 

Pi , [ mi , - \ ] = c , 1 < k < r 
dcjj 函数值分两步计算 ：1) 对字符集中的每 
个字符 c ，令 ski ) ( c ) = l mm . 2) 对模式串 Pi 中的 
字符 P “ J ] < j </ n t - lh 令 

skp ( P t [ jJ ) = min { skip ( P k [ j ]), m k - j - 1；. 

sliift ( c ) 的值为模式尾字符可以跳跃的字 
符数，即呔 ( P k [ m t - 1 J ), 为防止最短的模式 
串被漏过， diifl 的最大值设为 / mm ，最后将 dcjp 
( P t - 1 刀的 值置为 Q 

算法1快達的模式匹配算法. 

输入： goto () ， ou^jut ( ) , skp ( ) , shift () ， 
string; 

输出：模式串在中出现的位置； 
man set ( string + n , [ m x - \ ], / mm )； 

P = ^min - 

while p < n do 


begin 

s = 0 ; 

^ = skjp ( string [p ]); 

while 分 ★ 0 do 
begin 

P = p + k 

k = skip (string[p] )\ 

end 

j = P\ 

s = 溪 ) to( s ， stnng[j])\ 

while 5 ^ fail do 
begin 

if ouut ( s ) ^ NULL then 
printf y ; 

J = ；- 1； 

S = goto ( string [j])\ 

end 

p = p 十 shifl( string [p ]).， 

end 

例 1 在文本串 “ mangersenkwhoisat ” 中查找 
模式串集合 P = { manger , who , where } 中的任一 
模式串. 

模式串集合转换成的反向有限自动机如图1 
所示 ， / mm =3,图中的箭头及箭头上的字符表示 
goto 函数，如果 goto ( s, c ) 函数不存在，則 goto 
( 5 c) =fail 图中双圈的状态表示输出状态，所 
对应的模式串用方框表示.永 ip 和 shift 的值如表 
1所示，匹配过程如图2所示，每一行表示从状态 
0 开始，按照 goto 函数从后向前比较，直到 goto 
(5 string [ ; ]) <Q 


j wanger , 



图 1 自动机的 goto 函数和 Oll|)Ut 函数 
表 1 sk|i 和 shfft 的值 


c dc ^> ( c ) dnft ( c ) 

e 0 1 

g 2 3 

h 1 3 

o 0 3 

r 0 1 

w 2 3 

其他 3 3 
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步驟 

字符比较 

i 

str[»] 

skip 

shift 

output 

1 

mangersenkwhoisatrrr 

2 

n 

3 

/ 

/ 

2 

mangersenkwhoisatrrr 

5 

r 

0 

/ 

/ 

3 

mangersenkwhoisatrrr 

个■个个个个个 

5 

r 

/ 

1 

manger 

4 

mangersenkwhoisatrrr 

6 

s 

3 

/ 

/ 

5 

mangersenkwhoisatrrr 

9 

k 

3 

/ 

/ 

6 

mangersenkwhoisatrrr 

12 

0 

0 

/ 

/ 

7 

mangersenkwhoisatrrr 

个个个 

12 

0 

/ 

3 

who 

8 

mangersenkwhoisatrrr 

15 

a 

3 

/ 

/ 

9 

mangersenkwhoisatr^r 

)8 

r 

0 

1 

/ 


图2匹配过程 

其中第 3 步、第 7 步和第 9 步为找到模式尾字符 
后，按照 goto 函数进行逆向匹配的过程. 

2算法的改进 

基于反向自动机的算法由于在匹配过程中从 
模式的右端向左端逆向匹配，因此在整个字符串 
匹配过程中，必然会有字符被多次扫描.最坏情况 
下，例如在字符串 a (^J «个 a 组成的字符串序 
列 J 中匹配模式串 ' ，算法将进行次扫 
描.虽然这种特例情况很少，但是在多模式匹配 
中，当模式数目非常多时，就有可能导致类似的情 
况.因此需要考虑如何提高算法在最坏情况下的 
性能. 

由于 DF &\ 的时间复杂度无论在最佳还是最 
坏情况下均为因此改进算法 1 ， 采用 
Tuned BM 算法中跳跃的思想和 DF 弘中自左向 
右不回朔的匹配方式，在字符串中首先查找所有 
模式的第 / mm 个字符，若不是，则根据 ski ) 函数值 
向右移动字符串指针，找到后，从模式的第一个字 
符开始正相匹配，得到多模式匹配算法2修改 
ski ) 和 shift 函数的定义如下： 
sk ip f W = 

III I Pk [ ^nm ~ J ~ !_/ = ^ < J < (nm ， 

1 < ^ < r}, c 6 {P}; 

“ ， {P}. 

shifted = skip (P k [Lm - 1 ]), 

Pk [ “ • 1 ] = G l < k < r 

算法 2 改进的模式匹配算法. 

输入 ： goto ( ) ， ou 取 ut ( ) ， skp ( ) , shift () ， 

string; 

输出：模式串在中出现的位置； 


P = Lm - 1 ； 
s =0; 

while p < n do 
begin 

h =^i\) ( string [ p])\ 
while ( h ^ 0 and p < n) do 
begin 

p = p k\ 

lc ( string [/>])； 

end 

J _ _ ’mm + 1; 

s = goto ( string [;])； 

while s ★ fail do 
begin 

if ou ^ ut ( s ) ^NULL then 
prints ; 

y = y +1; 

S = goto ( string [ y ])； 

end 

^ (j < p) j = p\ 
if (ski) ( string [ y]) =0) then 
P = J + 由价（ string [ y ])； 
else 

P = J + dcp ( string [ y ])； 

end 

根据算法2,例 1 的 goto 函数、 shift 和 dcp 函 
数、匹配过程分别如图2和图4所示. 


| Banger ; 


—V 

7 ' 

« 


*\ 

W 

1 _ 




| 胃 here j 


图3自动机的 goto 函数和 ou ^ nit 函数 
表2 sk^j 和 shfft 的值 


skp( c) 
1 
0 
1 
2 
0 
0 


其他 


shift( c ) 
3 
3 
3 
3 
3 
3 
3 
3 


其中第2步和第5步为找到模式中第 / mm 个 
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字符后，按照 goto 函数进行正向匹配，直到发现 
一个不匹配字符的过程. 


步骤 

字符比较 

i str[i] skip shift output 

1 

mangersenkwhoisat 

2 n 

0 

3 

/ 

2 

mangersenkwhoisa t 

个个个个 个个个 

6 s 

3 

3 

manger 

3 

mangersenkwhoisat 

9 k 

3 

3 

/ 

4 

mangersenkwhoisat 

12 o 

0 

3 

/ 

5 

mangersenkwhoisat 

13 i 

3 

3 

who 

6 

mangersenkwhoisai 

16 t 

3 

3 

/ 


图 4 匹配过程 

3时间复杂度分析 

设字母表的大小为\所有模式串的长度之 

r 

和为 

Jt=l 

3.1 预处理阶段的时间复杂度 

r 

预处理阶段 g ) tD 函数的构造时间与 2 ^ 

*=1 

T 

成线性关系，时间复杂度为 Of 2 m k ) - skip 函数 

Jfc=l 

的计算分两步： 1) 初始化阶段，计算量与 （ T 成线 
性 关系； 2) 更新阶段，需要扫描每个模式串，计算 

T 

量与2 成线性关系，所以 skp 函数的时间复 

fc=l 

r 

杂度为 O ( 孓 m k +7人 

k=i 

diift 函数计算中，初始化和更新阶段的计算 
量均与成线性关系. 

综上所述，在预处理阶段本文算法的时间复 

T 

杂度为 O ( 2 + 

fc=l 

3.2 查找阶段的时间复杂度 

模式集合 P 中模式串的最小长度为 / mm ，最 
大长度为 /_. 

最优情况算法的时间复杂度为 O (« / / mm ), 
最坏情况算法1的时间复杂度为 0 (n I / mM ) ，， 
算法2的时间复杂度为 O (nL 

平均情况下，时间复杂度的分析比较复杂，且 
与字符的出现概率有关，因此需要通过概率模型 
进行计算.文献 [1] 提出，平均情况下算法的性能 
可通过发现不匹配字符所花的代价和发现该不匹 
配后能够移动的距离之比的概率平均值来考察. 
根据上述考察方法，本文提出的算法平均性能如 
下： 


" p ( i ) cost ( i ) q ( i ) cost ( i ) 

，.圣 （skip ( i ) + shiftC i ) 


(V 


式⑴中 P(1> C °^ (1> 表明进行实际模式比 
skip f i ) 

较前文本的跳跃情;兄， pfd 为 skj > 函数中不为0 
的字符（即不是模式串的结尾）出现的概車， 
COSH (;) 为查找 ski ) 函数所花的代价， skbO ) 为 
发现该字符不匹配后平均能够跳过的字符. 


4nin 

skip (汐= 2 ^ * ^«kip (t k ) 

k=\ 

其中： p # gw 为查找文本到第 2 个字符时，发 
现不匹配后能够跳过 / S •个字符的概率. 


式 （1) 中表示第 Z 个字符为模 

式串结尾，开始模式比较后文本的跳跃情况， 
q ( 0 = 1 - pfd 为模式串结尾字符出现的概車， 
cost ( ; )为模式比较过程中发现不匹配字符所花 
的 代价； diift ( !) 为发现该不匹配字符后能够跳 
过的字符. 

4nax 

cost ( i ) = 2 P ^ C0S U i , rn ) 

m =0 

4nn 

shift 〜 = 卜 ■ P Aw ( 4 m, k) 

m =0 Jk=l 

其中： costUm ) 为找到模式中字符后继续查找 
m 个字符所花的代价， prcbamj 为查找到第 m 
个字符发现不匹配的概率. 

类似地， FS 算法和 AQR 算法的平均性能可 
以用式 （2) 考察. FS 算法的 * ifl (0 函数和本文 
算法相同，而 AQR 算法的 shift (;) 中1的上限值 
为 !mm + 1- 


2 


cost ( l ) 
shiflf i ) 


( 2 ) 


由于 cost ( l ) 的值远小于 cost (;) ，而 
skp ( d 的值一般会大于 shift ( i )， 在 p ( i ) >0的 
情况下，式 （1) 必然会小于式 （2). 分析可以看出， 
本文算法比 FS 和 AQR 算法有更好的平均性能. 
由于算法2在正向匹配过程中，对于超过最小长 
度的模式，能够进一步向前移动字符串指针，因此 
具有比算法1更好的平均性能. 


4对比实验与分析 


与 AC 算法 、 FS 算法和 AQR 算法进行比较 
后，选取 2. 46 M 的英文文本，在其中查找多个模 
式串，找出所有出现的位置.从文本中选取不同长 
度的模式串，測试在不同模式集和模式长度下算 
法的性能.为便于比较，实验中每一组模式串长度 
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2 10 18 26 34 42 50 58 66 74 82 <)0 98 

檳式审 K ; 度 

图 5 查找时间随模式串长度变化情况 
• AC ― ■ — PS AQR ff 法 1 ~ * - 炫法 2 

M ) 

50 


I 5 9 13 17 21 25 29 33 37 41 45 49 

模式中长度 

图 6 查找时间随模式串数目变化情况 
从实验数据可以看出 ， FS 算法 、 AQR 算法和 
本文算法在模式串较长且模式串数目较少时，都 
比 AC 算法有更好的性能.与另两种算法相比，本 
文算法在模式串较长，模式串数目较小时，性能相 
对更好.因此当模式串较长，模式串数目较小时， 
模式串尾字符在模式中出现的概率较小，而 ski 3 
值较大的概率也会增加，这样在模式串比较之前 
就能够跳过更多的宇符，本文算法性能比 FS 和 
AQR 算法优越. 

从图6可以看出，随着模式串数目的增加 ， FS 
算法、 AQR 算法和本文算法1查找时间增加，并 
最终超过 AC 算法，这是因为当模式串足够多时， 

模式串尾字符出现的几率增大，上述算法都会有 
较多的回溯行为，因此性能较差.而算法2则和 
AC 算法类似，查找时间随模式数目的增加仅有轻 


一致. 

实验共测试两个方面的 内容： 1) 各算法查找 
时间随模式串长度增加时的变化情况.模式集中 
模式数目固定为10个，模式长度从2到100以2 
为单位递增. 2) 各算法查找时间隨模式集大小增 
加时的变化情况.模式集中模式长度固定为40, 
模式的数目从1到50以1为单位递增. 

测试机使用曙光服务器， CRJ 为 2.4 GHz ， 内 
存 2. 0 G ， 操作系统为 Red hatLinux 7. 3， gcc 版本 
2. 96算法用 C + +实现，实验结果如图5,图6所 
示. 

—AC - 朽 AQR W 法 I— •-!? 法 2 

10 - 1T -- TTT T I , , , 1 1 I — ,, , “，- 1 __ •一 



微的增加. 

在字符集较大时，如中文字符集和 Unicode 
字符集，模式串中字符在文本串出现的概車相对 
较小，尾字符出现的概率小，在实际比较之前就会 
跳过更多的字符，同时 ski ) 值较大的概率也会增 
加，从而本文算法的优点也就更加明显. 

5结语 

本文把单模式匹配算法中 TunedBM 算法的 
思想与基于有限自动机的多模式匹配算法相结 
合，提出了快速的多模式匹配算法，并进一步改 
进，使之在最差情况下达到线性时间复杂度.实验 
结果表明，在模式串较短时，算法需要的匹配时间 
是 AC 算法的30 - 50%， AQR 算法的90%左右； 
在模式串较长时，所需时间是 AC 算法的12 - 
25%, AQR 算法的70 - 85%， FS 算法的90%左 
右.因此，本文算法可有效的用于各种字符串比较 
应用中，尤其是在模式串较长的情况下，以及较大 
的字符集如中文字符集和 Unicode 字符集中.由 
于算法最差情况的时间复杂度为线性，因此可用 
于实现关鍵任务的匹配问题. 
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物联网环境下的信任机制研究 


刘文懋 w 殷丽华 2 ) 方滨兴 u 张宏莉 n 

15 (哈尔滨工业大学计算机科学与技术学院哈尔滨 150001) 

2) (中国科学院计算技术研究所信息智能与信息安全研究中心北京 100190) 

摘要 物联网环境下的信任机制是一个亟待研究的重要课题，文中提出物联网环境下层次化的信任架构，满足 
了不同主体的信任需求，隔离了机构信誉和阅读器信任.使用基于证据理论的方法推导动态运动阅读器的信任，因 
较短的标签通信距离使恶意事件检测效率较差，文中提出可验证缓存前次交互摘要的方法，有效检测出恶意的终 
端阅读器.在稳定的机构层，使用信誉机制维护机构信任.层间信任交互构成了“现象可信-行为可信-节点可信-机 
构可信-授权可信”的环流，使得信任得到快速收敛和反馈.实验表明，可验证缓存前次交互信息的方法有效解决了 
证据理论方法中因物体 RFID 通信距离短无法被邻居节点检测到的缺陷，层次化的信任机制具有较强的汇聚信任 
的能力，并有较快的收敛速度. 

关键词 物 联网； 信任 机制； 证据 理论; 可验证缓存前次交互 摘要； 层次模型 
中图法分类号 TP 393 DOI 号： 10. 3724/ SP . J . 1016. 2012. 00846 


A Hierarchical Trust Model for the Internet of Things 

LIU Wen-Mao 1 ) YIN Li-Hua 2 〉FANG Bin-Xing 1 ) ZHANG Hong-Li 1 ) 

{School of Computer Science and Technology » Harbin Institute of Technology ， Harbin 150001) 

（Institute of Computing Technology ， Chinese Academy of Sciences , Beijing 100190) 

Abstract The role of the trust model in the Internet of Things (IoT) represents an important 
domain which is not yet well studied. In this paper，we propose a hierarchical trust model to meet 
heterogeneous subject trust requirement and isolate organization trust and reader trust, in which 
the following processes can take place ： A verifiable caching interaction digest (VCID) schema is 
introduced for the purposes of monitoring object-reader interaction, an improved evidence theory 
is employed to deduce unstable reader-reader trust，and a long-term reputation mechanism is used 
to manage indirect trust of organizations. A cross-layer trust loop flow is established through the 
following levels of trust : phenomenon, event, node，organization and authorizing. Within this 
flow, the reader trust from the lower layer converges up towards the organization reputation on 
the upper layer by way of supervisor readers quickly. With simulations analyzing the impact of 
abnormal node ratio, node density, and tag communication range on the organization trust, the 
hierarchical trust model can effectively detect malicious organizations from their node behaviors 
and has demonstrated good convergence in the distributed IoT environment. 


Keywords Internet of Things ； trust model ； evidence theory ； verifiable caching interaction 
digest schema ； hierarchical architecture 
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1引言 

物联网将现实中的物体通过虚拟的互联网连接 
起来，智能化的终端催生了大量新应用，其中重要的 
有组织协作、人员跟踪和物流定位等.在上述应用 
中，物体通过 RFID 阅读器组成的接人网与应用服 
务器通信，为了保证交互是安全和可靠的，阅读器必 
须是可信节点，即机构需对与其标签交互的阅读器 
动态授权.但由于物联网环境复杂，而阅读器也不稳 
定，机构无法直接推断未知阅读器的信任度，物联网 
中的信任授权问题尚未得到很好解决. 

解决动态授权问题的前提是在机构、阅读器和 
标签间建立可靠的信任机制，然而物联网应用种类 
众多，互联网和阅读器网络环境存在较大差异，机构 
和阅读器有不同的信任特征，现在还没有一种方法 
可直接应用于物联网. 

对此本文提出了一种层次化的信任机制，分离 
了异构环境中主体的不同信任需求.根据证据理论 
的不足提出了一种可验证的缓存交互摘要方案 
(Verifiable Caching Interaction Digest schema， 
VCID)； 在信任架构中构建了“现象可信-行为可信_ 
节点可信-机构可信-授权可信”的环流，将阅读器信 
任和机构信誉很好地整合.实验表明，提出的 VCID 
方法比证据理论更能有效地检测出恶意的终端节 
点； 此外，层次化的信任架构具有很好的信任收 
敛性. 

本文第2节介绍相关的 工作； 第3节简要介绍 
物联网的应用 模型； 第4节提出一种层次化的信任 
机制； 第5节分析影响信任机制的模型参数及所提 
信任机制的 性能; 第6节进行简要总结. 

2相关工作 

从众多信任相关的研究可知，信任〜是一个主 
观模糊的概念，取决于主体、客体、环境和交互的因 
素，没有一种单一模型可以精确刻画主体的信任度， 
尽管已有一些工作尝试在不同网络中从理论上统一 
定义主体间的信任 [2] ，但未给出具体的信任计算 
模型. 

通常互联网中的机构是商业或政府机构，具有 
时间状态稳定且空间数量有限的特点，故可借鉴电 
子商务的信任管理.通常电子商务的信任模型有两 


种: :一为基于身份的完全控制 [33 ,即通过证书确认对 
方身份，并根据统一信任管理域中的策略进行授权， 
这种架构可直接管理网络中节点，计算较方便，但其 
身份和信任策略是固定的，不适合分布式 环境; 二为 
基于信誉的信任管理 [1 」，即主体在计算客体的信任 
度时，除使用自身经验外，还参考第三方对客体的评 
价.在计算中可使用多种模型，如平均值 w 、贝叶斯 
系统《和向量 机制® 等.信誉的建立和维护需要较 
长时间，符合机构稳定的特性，同时机制可通过协 
作，在分布式网络中快速检测出恶意节点，所以信誉 
体系可应用于互联网中的机构.上述的计算模型中 
客体信誉的更新主要源于主体对于客体交互的反 
馈，但在物联网实际的应用中，机构间并无过多的交 
互，交互多发生在机构-阅读器和阅读器-标签中，机 
构信誉主要受其阅读器的行为的反馈，故使用信誉 
系统评估机构的信任时，需考虑相应机构下属阅读 
器的因素. 

在阅读器网络中，存在大量节点增减或移动的 
现象，而基于身份的方法结构固定且计算开销较高， 
基于信誉的方法要求主体存活时间较长，均不适用 
于这种动态环境.在 ad-hoc 网络的研究中，往往采 
用节点间协作，更新自己对各节点的信任值，最终推 
导出恶意节点.所以阅读器主体在评估客体的信任 
值时，主要是考察其行为，故称为基于行为的信 
任 [8] .在具体的信任计算和节点状态推导过程中出 
现了各种模型，如文献 [9] 中使用的 D-S 证据理论， 
其根据与客体的交互，计算本地信任，并通过一个 
TrustNet 网络结合其它节点对客体的本地信任进 
行合成，得到综合信任.证据理论通常有较好的计算 
收敛性和可扩展性，但证据理论的 Dempster 合成 
存在冲突风险，因为正交合成考虑不同报告中的相 
同部分，如果有一个节点的报告与真实情况完全不 
同，合成结果也会受影响，特别是在有伪造报告节点 
的环境中，冲突尤为明显.与证据理论类似， Song 等 
人 [w] 提出的基于贝叶斯决策理论模型的方法，其假 
设不具备模糊性，节点行为总是非是即否，在文献 
[11] 中的实验表明这种确定性在快速变化的网络 
中，恶意事件报告率并不理想，且当信任阈值较小 
时，恶意事件误报率较高，且贝叶斯的先验概率及条 
件概率需要专家知识，往往很难确定.此外，还有基 
于熵理论 [12] 的信任模型和基于云模型 [ ■的方法，都 
使用了不确定度描述信任，但如果主体和客体的信 
任路径过长，不确定度会被放大，故两者在多级信任 
链中收敛 较慢； 基于半环代数理论的信任模型 [14] 也 
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存在同样的问题.上述模型随着路径跳数增加，信任 
收敛速度变慢，可扩展性变差. 

可见，每种信任模型也有不同的奖惩特性、收敛 
速度和可扩展能力，单一信任架构或信任计算模型 
并不能满足物联网中所有主体的信任需求.本文的 
信任机制能满足不同主体的信任需求，同时有较快 
的信任收敛性及可扩展性. 

3物联网应用背景 

信任架构和应用背景有密切的关系，本章主要 
介绍物联网具体的应用模型，指出模型中各主体的 
特点及其信任需求. 

3.1 物联网应用模型 

物联网现已在一些领域中使用，如物流公司在 
运输过程中读取物体上的编码，实时更新物体 位置； 
智能手机使用 GPS 或移动基站获得当前位置，通过 
移动网络接入互联网，使用各种基于位置的服务 
( LBS ), 诸如此类.物联网的应用众多，具体实现也 
不同，现以一类重要的物联网应用——物体或人员 
定位为例说明. 

在定位应用中，家长可借助置于孩子身上的标 
签，通过服务器查询，实时获知孩子的位置以防止意 
外.具体而言，机构在互联网中部署数据存储和查询 
服务，并在一些需监控的区域安放一定量的阅读器， 
阅读器间可通过 WIFI 相连，构成一个自主网络，并 
通过某些阅读器接入互 联网； 同时机构为每个孩子 
提供装有 RFID 标签的设备，这样当其运动到某个 
阅读器附近时，标签与阅读器交互，阅读器将时间、 
人员编号与标签信息通过阅读器网络传输到相关机 
构的服务器,后者将三元组 保存； 当家长登陆定位应 
用后，即可知自己孩子最近出现的位置（即阅读器编 
号所对应的范围）. 

针对物联网中快速移动、富信息和交易网络环 
境下的企业级应用，国际物品编码协会 （ EAN ) 和美 
国统一代码协会 （ UCC ) 两大标准化组织于2003年 
联合成立 EPCglobal 组织，已在开发对应的架构和 
标准; 此外日本多家企业组成的泛在 ID 中心提出了 
泛在识别技术体系架构.但这些标准化架构主要是 
针对商业级别的应用，没有考虑更一般化的应用.尽 
管现在各物联网应用的模型尚未统一，但其主体通 
常都包含三类 ：机构 、阅读器和物体，如图1所示.机 
构包括商业组织和政府单位等.是物联网应用的发 
布和提供商.机构在互联网中部署服务器，同时机构 


2012 年 

在各地理区域安装大量 RFID 阅读器，阅读器可读 
取附近的标签 信息； 物体上安装有 RFID 标签，故可 
与阅读器通信.在本文中，“阅读器”和“节点”含义相 
同，“标签”和“物体”的含义相同，以下不作区分. 



3.2 主体的信任需求 

对于一个物联网应用，其所涉及的各个环境有 
很大不同，环境中主体对信任的需求有较大差异.在 
互联网中，机构数量较少，且状态长期稳定，故信任 
易管理.而在阅读器环境中，由于成本和通信距离的 
限制，单个机构的阅读器部署远不能覆盖整个区域， 
所以多个机构的阅读器可互联组成阅读器网络，节 
点间是对等的；此外，节点随时可能新增、移动或失 
效，所以阅读器的信任缺乏全局性和稳定性.在标签 
层面，就现有技术，无源 RFID 标签的运算性能较 
弱，故其信任机制设计受到较多限制. 

阅读器可协作处理其他机构的标签，产生数据 
或指令的交互.但由于机构和阅读器不在同一环境 
中，两者没有直接的信任关系，那么交互是否可获机 
构授权，则需一个分布式层次化的信任体系来解决. 

4物联网环境下的信任架构 

在研究物联网环境的信任体系中，因各主体的 
规模、能力和稳定性不同，如果将所有信任关系置于 
一起讨论,会增加系统的复杂性，故可将信任体系分 
为 三层： 机构层、阅读器层和物体层，如图2所示.在 
互联网的机构层使用长期的信誉处理机构的信任 
度，在阅读器层使用邻居监控节点的行为，在物体层 
使用缓存的交互信息检测节点与标签的交互.同时， 
层与层之间也存在信任流传递，计算阅读器信任度 
可参考节点所属机构的信誉，而阅读器的行为也最 
终反馈为其所属机构的信誉值.层次化的信任机制 
可简化物联网的信任交互复杂度，满足不同主体的 
信任需求. 
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[ 阅读器 


事件可信度 

I 

现象可信度阅读器1 


证据理论 


II 




1标签 j 

VCID 


物体层 


图2信任架构示意图 


具体而言，机构的信誉受其阅读器的行为影响， 
阅读器的行为主要体现在与标签的交互中，即获授 
权的终端阅读器是否如实转发数据和执行命令，如 
表1所示，详细说明参见下两节. 


表1阅读器信任的类型 


信任类型 

行为 

授权信任 T ,- 

终端节点丢弃指令或数据 
终端节点篡改指令或数据 
终端节点重放或伪造指令或数据 
终端节点自身信息正确性 


信任管理机构 


节点;信度机构 f 誉 


-> 1机构 


之权 


机构信誉 
节点平信度 j 

I 机构 T | 


机构层 


方法 ■ 

4. 1. 1基于证据理论的信任推导 

由于物联网中节点间的距离和通信并不可靠， 
节点对观察到的现象并不确定，同时分布式的环境 
缺乏专家知识，没有非常可靠的参数，所以借助证据 
理论进行信任推导，其要求比贝叶斯推导更松，容易 
得出一致的结论，它在处理“现象-行为-节点状态” 
的推导链中表现的性能较好，是一种有效的节点信 
任推导方法. 

4. 1. 1. 1证据理论 

证据理论 （ D-S theory ) 是一种不确定推理，它 
利用已有的知识和证据，推导假设的不确定度.根据 
证据理论，判断阅读器的信任度，需要根据其行为进 
行分析.用形式化表述，就是假设 H 为节点 >- 不可 
信，支持这个假设的证据是节点 r 存在恶意行为，如 
B , ， B 2 ，… ， B „ ;而判断这些恶意行为是否存在，同样 
需要根据 r 的邻居节点观察到的现象 Ai ， A 2 ，…， 
A „, 进行推导，如此形成了一条“现象-行为-状态”的 
推导链. 

4. 1.1.2 恶意行为推导 


4.1 阅读器信任 

本节介绍基于证据理论推导阅读器信任的方 
法，并分析其缺陷，进而提出可验证缓存交互摘要的 


表2中路由信任的每个类型可分为若干假设, 
然后定义推导出假设的现象与知识.以“中间节点丢 
弃数据包”为例，分别定义了 4个事件假设. 


表2抛弃数据的推导规则 


事件 

事件假设 

假设标记 

知识（推导规则） 

知识不确定度 


节点未丢弃数据包，被邻居节点检测到 

Bo 

Ai AND A 2 AND A 3 AND A 5 — 

CF 0 

终端节点 

节点未丢弃数据包，但未被邻居节点检测到 

Bi 

Ai AND A 2 AND A 4 AND A 5 AND ( A 6 OR A £ 

；)^Bi CFi 

丢弃数据包 

节点丢弃数据包，因无法连接邻居节点 

b 2 

Ai AND A 2 AND A 4 AND A 9 — B 2 

cf 2 


节点恶意丢弃数据包 

Bs 

Ai AND A 2 AND A 4 AND A 7 AND A 5 — 

cf 3 


表2知识中的 {A,} 是节点观测到的现象，具体 
如下： 

a 1: r „ 时刻，节点 n 收到数据包 p ，且 p 的目 
的地为 N; 

A 2 ：p 类型为数据，下一跳是标签 Q; 
A 3: [T„，r„ +1 ] 间隔内，监控节点X收到节点 
N 发出的数据包 C， 目标为 Q; 

A 4 : [ T „, ， T „ +1 ] 间隔内， X 未收到节点 N 发出 
的 C， 目标为 Q; 

八 5: 0与_?的内容 一致； 

A S: [T„，T„ +1 ] 间隔内，节点 N 运动 较快； 
A 7: [T„,T„ +1 ] 间隔内，节点 N 运动 较慢； 

A 8: 节点 N 和 X 距离 较远； 

A 3: [T„，T„ +1 ] 间隔内，节点 Q 运动较快. 
根据表2的假设设定相应的推导规则，由节点 


观测到的现象推导出假设的可能性.如当节点 X 在 
T 时刻收到目的地为节点 N 、 类型为命令且对象为 
标签： T 的数据包，而在下一时刻没有观测到节点 N 
发送相应命令，且发现标签： T 近期运动速度较快， 
则推断可能是因为标签运动速度过快导致节点没有 
发送命令.压的概率分配函数为 

m ( B,J = min { CER ( A 1 ) , CERCA 2 ) , 
CERiAt ) , CERCA a )} CF 2 . 

CER ( A ,) 为各现象的不确定度，该事件的信任 
函数和似然函数分别为 

BeL ( B 2 ) = m ( B 2 ) » 

Pl ( B 2 ) = 1 — BeK—^Bz ) = m ( B 2 ) , 

其中 D ={ B ,}. 

其它事件的推导类似，限于篇幅不作赘述， 
表3为其它事件列表. 


次互息 

前交信 
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表3阅读器网络的事件列表 


假设类型 

假设 

标记 


节点未修改数据包 

B , 

终端节点篡改 

节点未修改数据包，但网络传输错误 

b 5 

数据包事件 

节点工作异常，转发时修改数据包 

B 6 


节点恶意修改数据包内容 

b 7 

终端节点伪造 
或重放数据包 

节点未重放数据包，因前后两个数据 
包内容一致 

Bs 


节点将数据包重放，转发到非目的机构 

b 9 


当邻居发现节点异常事件后，需要向机构汇 
报.由于一个事件可能被多个节点捕获，机构 0 A S 
时检查.找到所有关于该事件的报告 { T event } ，正交 
计算每个事件的综合信任度 

m(B,) = i?i Xi (B,) ㊉ m A - z (B,) ㊉…㊉ (-B,) , 

Tj Vent = ) ,B(B,) , P(B,)) , 

并计算 

4. 1.2 基于可验证缓存交互摘要的信任评估 

使用证据理论的前提是节点间的协作，邻居节 
点能够检测到物体与阅读器交互.然而，物体与终端 
阅读器间采用 RFID 通信，距离较短，可能无法被其 


它节点 获知； 此外阅读器分布过稀也可能导致检测 
效率低.本文提出的可验证的前次交互摘要缓存的 
方法，在物体层保留终端节点使用授权的证据，在机 
构层验证物体提供的前次交互摘要，完成对授权的 
审核，避免了阅读器分布和标签通信距离的影响. 

机构在获得阅读器的授权请求时，通过其所在 
机构的信誉判断是否允许预 授权; 在通过授权后，为 
防止被滥用，机构需监控后续交互，具体过程 为：物 
体在交互时需缓存交互相关信息，在下次交互时提 
交给机构，这样机构就能确定该交互是否合理.故可 
验证的缓存前次交互摘要方法包含3个步骤 ：机构 
对交互的预授权、标签缓存交互摘要及机构对授权 
的审核. 

机构对交互的预授权过程如图3所示.阅读器 
尺二尺,-!*现标签了后，发送 TAG _ HEADER_REQ 
请 求；: T 则响应 TAG_HEADER — REP ， 包括编号 
: T 、 所属机构0等 信息; i ? 随后向机构0发送授权请 
求 AUTH _ REQ ， 当0确认可信后通过授权，返 
回 AUTH _ REP ； i ? 获得授权后向: T 出示授权 凭证； 
最后： T 可与进行数据或指令交互. 



图3动态授权示意图 


接着在时刻 TV: ，:[^与&^交互后，: T 记录 
CR ,-: ，: ，其中 o 九-!为交互的操作类型 
等摘要.在下个时刻 T„, 当： T 经过终端阅读器并 
向机构0发送数据包 D 时，： T 在数据包中添加时刻 
的交互信息.数据包变为 M= {cert T ,rs T ,seq, 
R„~i , T„_i ,op n -\ ，D ， "） ，其中 h = hash ( cert T , seq, 
，吵，听） 是字段组合的散列值，以保 
证 M 的完整性， ce ^ x 为： T 的证书， rs r * : T 的随机 
数， seq 为 D 的序列号.当 K 接收到 M 后，转发 M= 
(cert T ,is T ,seq,R „- 1 , T„-i ,op „- 1 ,D,h , cert Rn >rSR n , 
/;') ，其中 /;'= hash(cert R , rs R ,h), cert R 和 分 
别为 i?„ 的证书和随机数.故 M' 中包含了兄,的签 
名，中间阅读器在路由时会校验 A 和//，如失败则 


拒绝转发，否则一直转发到 O . 

最后，机构0为每个: T 维护一个散列表0 = 
beg —( M ' — D )}; 同时0使用散列表 B = — 

k }} 保存检测到的恶意授权节点信息， c 为每个异 
常事件的确信度.当机构0收到 M ' 后，检查是否有 
针对授权的恶意行为，如图4所示. 

可验证缓存交互信息的方法保证机构能完成授 
权信任，说明 如下： 

(1) 由于中间节点进行数据包完整性检查，如 
果机构0对 〆 检查成功，则可保证 AT 从 i ?„ 发出后 
没有被修改，否则中间节点会抛弃校验失败的数据 
包，故可保证路由安全. 

(2) 机构0校验，可保证 J ?„ 未篡改 M ， 故当标 
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if //7^hash(ce" R ，rsR yh) || valid(,cert T ) = = false 
return 

seq max = max( seq ， seq max ) 
seq m m = min( seq ， seq m[n ) 

C[seq'] = (cert T ,rs T ,seq,R„-i ，丁 „ —1 ， op„_i ， h) 
if ( currentTime % check T imeout = 0 ) 

foreach (cert T trs T yseq^Rj » T, _i y op„-i yh) ^values(C) and 
seq m [ n <seq <seq max 

if (h^hash(cert T iSeq^u-i , T„_i ， op,,_\ ， rs T ) ) 

B [i?„].add (c 2 ) 
else if (seq — 1 ^ key si C)) 

B [ J ?„- i ]. add ( c 2) 

else if {opn-\ is invalid) 

B [J?„_i].add (c3) 
endif 

endforeach 

endif 

图 4 机构检查摘要过程 

签数据经阅读器网络时，其完整性得到保证.另 ： r 
在数据包中添加随机数和时间戳:，可保证 
艮无法重放或伪造 M . 

(3) 阅读器与 T 交互前获得授权，路由的路径 
是通的，若机构在 C 中找不到 — i 的键，则说明 
机构最终没有收到前次交互的数据包，很可能被 
尺, y 抛弃数据包，则0可标记^。^发 生了一 次恶意 
行为. 

(4) 通过检验前一时刻的操作摘要，机构 
可审核阅读器是否合理地使用授权，未进行非法 
操作. 

然而这种方法存在漏报的风险，即相继交互的 
阅读器均为恶意节点或因网络变化发生数据包丢失 
的情况，则机构只知道发生数据包丢失事件，却无法 
获知阅读器的编号.但由于 VCID 只根据确认的恶 
意事件降低机构的信誉，不会影响正常机构，所以是 
可接受的.此外对授权的验证可设计为异或运算，这 
样能满足标签的计算能力. 

可验证缓存交互摘要的方法需要保存摘要信息， 
一方面，标签在交互时会保存本次交互的摘要，而在 
下次交互时上传并舍弃，故只需保存一个摘要 即可； 
另一方面，服务器需要保存时刻 check _ timeout 内所 
有标签上传的摘要，尽管对于单个标签的存储和检 
查开销较小，但如果对于大规模的应用，可能需要使 
用并行存储和计算，事实上物联网的云计算研究已 
经有大量工作，本文不再赘述. 

4. 2 机构信任 

在对阅读器授权前，需考察该阅读器所在机构 
的信任.机构信任是稳定的，可由第三方机构对其信 
誉值的评价来获得，主要在机构层实现.考虑到机构 
的数量远远小于阅读器和标签的数量，同时机构往 


往存在实体，是稳定可朔的，故提出基于信任管理机 
构的信任管理. 

4.2.1 基于簇的信任管理 

在分布式应用中，可按地理区域划分，形成可管 
理的单元簇.簇内由一个信任管理机构 G 集中管理 
普通机构的信誉， G 根据簇内机构的报告，维护机构 
信誉; 普通机构参考 G 发布的机构信誉值，决定是 
否对该机构阅读器进行授权. 

4.2.2 机构层的信任汇聚 

机构0^定期检查证据理论中的事件或 VCID 
中的交互验证事件，当正交计算后发现节点 i ? 状态 
异常时，向 G 报告.流程如图5所示. 

1. 对每个节点状态，设定信任阈值 { B !}、 似然阈值彳応}、授权 
异常阈值 f 和最大授权异常阈值 

2. 将所有交互报告按报告节点聚合，得到 L = iJ ?-({ T event >, 
{c})} 

while R G L.keys do 

3. 根据表 4 计算节点 i ? 的状态假 设：: 

P ( C ,)) 

4. 如果存在使得 B ( C 2 )> B ,，_ P ( C :)> P ,， 确认尺的 
状态 C(R) = C, 

5. 计算授权异常次数 A f = { Vc , 6 { c } I c 2 > Co } jCount= \A f \ 

6. 如果 comwZ > c ， C ( i ?) = C 。 

7. 如尺异 常则将(尺， C ( i ?)， l ) 添加到 E 
endwhile 

8. 04向6发送节点异常报告 £： 



图 

5 机构检查流程 



表 4 

节点状态的推导规则 


节点状态 

知识(推导规则） 

假设标记 

知识不确定度 

节点恶意 

B 3 OR B 7 OR Bi3— Co 

Co 

CFo 

节点正常 

Bo AND Bi AND B 4 AND 
B 5 AND Ci 

Cl 

CF[ 

节点故障 

B e OR B n ^ 

- c 2 

C 2 

CF[ 

环境故障 

B 2 OR B u ^ 

- c 3 

c 3 

CF f 3 


4.2.3 信任管理机构的信任管理 

信任管理机构缓存接收到的机构的节点状态报 
告，并定时检查.具体步骤如图6所示. 


1. 将机构的报告按照节点散列，每个节点办对应•个列表 
L no de = { ( RyC ( R ) , w ) \R = node ) 

2 . 对 L n ( ^统计正常、节点故障、环境异常和节点恶意的报告数， 
将最大值的类型作为 E 的最终状态类型，最终生成所有节点 
状态列表 Lo = {( i ?， C ( J ?))} 

3. 根据 i ? 所在机构对进行散列，每个机构 org 对应一个列表 
L org = { ( R ^ CCR )) I R 6 org } 

4. 对每个统计正常报告、节点故障、环境异常和节点恶意的 
报告数，记为 normal , nfaulty , efaulty , nmal . 

5. 计算更新遗忘机构恶意事件后的信誉值 
T = min ( T 0 -( l - T „_ i )/, To ) 

/为遗忘因子，为初始信誉，为前一时刻机构的信誉， 
获得机构的最终信 誉值： 

T „ = max(T — Pfaulty ( nfaulty -\- efaulty ) — P ma i • nmal »0) 
&是节点故障的惩罚因子，是节点恶意的惩罚因子 

6. G 公布 { 丁„} 


图6信任管理机构检查流程 






5.1 不稳定阅读器的影响 

阅读器网络是动态的，不稳定节点会改变网络 
拓扑和交互时间，这些不稳定的因素会对恶意事件 
的识别产生影响.设计使用基于证据理论方法的两 
个实验节点运动研究信任机构的性能.第1个实验 
(图 8) 中节点均静止不动，而第2个（图 9) 中30% 
的节点以 10 m / s 的速度运动.图中方点为发生的恶 
意事件，菱形点为检测到的恶意事件，如某时刻无恶 
意事件或未检测到的事件则不标，我们将某刻机构 
的信誉值乘10,也标于图中比较. 
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4.3 机构阅 读器间信任传递 
4.3. 1动态授权阅读器 

当阅读器尺,需要对标签进行交互前，需获得标 
签所属机构 o A 的授权.艮向 o A & 送授权请求 ， a 
收到阅读器 J ?,, 的请求后，计算阅读器尺,的信 任度： 
T ( R n )= aT OA ( R n ,0 B ) + ( l - a ) T G (0 B ) , 

其中 T 0 a CR „, O b ) 为直接信任，基于以往交互的经 
验，: T C (0 B ) 为间接信任，即所在的机构 0 B 的信 
誉，可从信任管理机构 G 获得， a 是比重调节因子. 
如 7 XR ,,) 小于阈值 T mi „ ，则拒绝 授权; 否则通过. 
4.3.2 信任反馈 

受信任模型的初始值和收敛性的影响，机构对 
节点的授权可能并不合理，信任反馈就成为修正错 
误的重要手段，机构从标签提供的交互摘要获得节 
点行为可信度，更新该节点授权，并反馈到其所在机 
构的信誉值.如某授权节点存在故障或恶意行为时， 


节点报告到达机构0,0调低该节点的信任值 
T „( R )= ST„^ t (_ R ) ，如果 T „ (_ R ) < T mi „ ，则机构撤销 
该授权. 

5实验结果 

实验使用模拟进行验证.环境如图7所示.其中 
的点以0开头为物体，以开头为阅读器，颜色代 
表其所属机构，节点间的线表示两者在通信.模拟 
采用事件驱动.下面实验中如不附说明，则环境中 
的阅读器网络面积为12 ⑻X 900 m 2 ，阅读器节点数 
量为80,通信距离为 200 m ， 标签的通信距离为60 
m ， 模拟时间为 200 s . 以下分析不稳定阅读器对恶 
意事件发生的影响，以及析标签通信距离对事件 
检测的影响，并对比证据理论和 VCID 的收敛效率 
性能. 




时间 /s 

0%运动节点环境中恶意事件与检测事件比较 
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0 16 32 48 64 80 96 1121281441¥0176192 
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图10标签通信距离对机构信誉的影响 

设标签通信距离为阅读器数量为〜阅读 
器网络面积为 S=w I 每个标签平均遇到的阅读 

器数目为 N = f . ' 当 oAi = 30 m 时 ， N = 

vu • h 

0. 21 ， 此时标签与阅读器时,很难遇到其它阅读器进 
行监控，可见证据理论在较短的标签通信距离条件 


°8 


：0 


图9 30?4运动节点环境中恶意事件与检测事件比较 

可见，当恶意节点运动较快时，与标签的接触较 
少，恶意事件也少，当节点全部静止时，共有242个 
恶意事件，而当30%节点运动时，仅有3个.可见节 
点运动对恶意事件的发生有很大影响.但本实验中 
标签距离较长，故仅出现的3个恶意事件都被检测 
到，下个实验将分析标签通信距离对恶意事件检测 
的影响. 

5.2 标签通信距离的影响 

标签的通信距离对恶意事件检测率也有影响. 
不同的 RFID 标签，如无源标签和有源标签的通信 
距离不同，标签的通信距离直接决定了能监听该标 
签与终端阅读器交互的邻居节点数量. 

有3组实验，标签的通信距离分别为 30 m ,60 m 
和 90 m ， 机构的信誉变化参见图 10. 当标签的通信 
距离为 30 m 时，机构的信誉值没有变化，而标签的 
通信距离增加至 60 m 时，机构信誉值降低，在一段 
时间后没检测到恶意报告开始 回升； 而当标签的通 
信距离增加到 90 m 时，机构信誉值迅速降低至最低 
值，一直不变. 


意事件，而后开始出现，如在 〖 = 50 s 后中连续出 
现3个丢弃事件，过了以 = max ( recv _ timeout ， 
f / iediz ' TOeoMO 后，即下个检查时刻或接收数据包超 
时的最大值，邻居节点检测到该恶意事件，故^ = 
55 s 时，出现6个恶意事件报告，而下一秒有8个报 
告.因为一个恶意事件可被多个节点捕获，故对应多 
个报告.后恶意报告向上汇聚，但此时机构的信誉值 
还未得到更新，故当？= 64 s 时，机构的信誉值还是 
0. 9.信任管理机构的下个检查时刻 （ = 80 s 后，恶意 
机构的信誉开始降低，并随报告增加继续降低.可见 
信任层次结构可在较短的时间内，把底层的节点行 
为反馈到机构的信任上.应用规模越大，节点也多, 
或节点的恶意行为越多，则信任反馈越快. 

5.4 VC 1 D 的收敛速度 

在授权信任中，使用缓存前次交互摘要的方式 
检测恶意终端节点，这种方法即便在阅读器密度不 
大的环境中，也能有效地检测出恶意节点.我们设计 
了 3组实验，第1和第2组分別使用证据理论和贝 
叶斯决策，通过节点检测邻居节点对标签的行为，推 
导恶意 事件; 第3组采用验证缓存交互信息的方法. 
每组均选取40、60和80个节点，一共9个实验，结 
果如图12所示. 

在采用证据理论的实验中，由于节点间较稀疏， 
无法检测到恶意事件，所以当节点数为40和60时， 
恶意机构的信誉始终不变，当节点数为80时，信誉 
值才开始 下降； 采用贝叶斯决策的结果与证据理论 
类似，但是检测成功率降低，这与文献 [11] 的实验结 


下性能较差. 

5.3 证据理论的收敛速度 

对于层次化的信任机制，底层的节点恶意事件 
汇聚到顶层的机构信誉，信任收敛速度是重要的评 
价标准.为了评估路由信任收敛性，我们将阅读器 
网络面积设为800 X 6⑻ m 2 ，其它不变，实验结果如 
图11所示. 

10 




图11 D - S 方法的收敛速度 
I 信誉初始值为 0. 9,在 f = 48 s 前，无恶 



7 6 5 4 3 2 1 
0 . 0 . 0 . 0 . 0 . 0 . 0 . 


迴#蝉咚毅釤#:» 


04 


蝉/籁釤幸條 

























本文首先分析了物联网中应用的特点与不同主 
体的信任需求，然后提出了一种层次化的信任机制， 
分离机构信誉和阅读器信任.之后根据阅读器特点 
提出了改进的证据理论方法，可推导阅读器的路由 
信任.但实验表明当标签通信距离较短的条件下，当 
使用现有的信任模型时，邻居节点很难监控到终端 
节点与标签的 交互； 本文提出了一种新的可验证缓 
存前次交互摘要的方法，交互的摘要被物体保存，并 
在下次交互时被机构验证，从而实现了阅读器的授 
权信任.此外，阅读器的行为信任汇聚到机构的信誉 
中； 机构也通过信誉参考对节点的授权，建立了“现 
象可信度-行为可信度-节点可信度-机构可信度”的 
信任流.该信任模型具有较快的收敛性和可扩展性， 
适合分布式、大规模的物联网应用. 

实验表明了证据理论和 VCID 方法都适用于不 
稳定的阅读器网络，但在通信距离较近的标签-终端 
阅读器环境中， VCID 明显有更优的性能.本文层次 
化的架构使阅读器信任收敛较快，有很好的性能. 

本文讨论了终端节点与标签交互中的授权信 
任，但没涉及中间节点在路由数据包时的信任，在今 
后研究中，我们将研究结合授权信任和路由信任的 
信任架构. 


0 16 32 48 64 §0 96112128144160176192 

时间 /s 

图 12 VCID 的收敛速度 

果一致.其它如云模型和基于熵模型的方法也都是 
通过捕获邻居节点的行为来调整节点的信任度，在 
检测阅读器-标签的交互中会受标签短距通信的限 
制，故对机构信誉的影响与这两组实验结果相似. 

相反，在使用 VCID 的实验中，即使节点数为 
40,也能及时检测到恶意事件.此后随着密度增加， 
恶意节点接触标签的次数增加，恶意机构的信誉值 
下降更快.可见采用验证缓存前次交互信息的方法 
有较快的收敛速度，不受节点部署的影响. 


6结论和进一步研究 
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Background 

This paper is related to the trust model of Internet of while long-term organization trust is derived from reputation 

Things (IoT) environment. Internet of Things is becoming and accumulative reader trust in a centralized fashion. Specif- 

one of the most promising technologies in modern life and ically, an improved evidence theory is introduced to deduce 

commercial society, the security of applications is gaining unstable reader-reader trust, a verifiable caching interaction 

more attention, especially the peer trust should be deter- digest (VCID) schema is introduced for the purposes of mo- 

mined before interaction. However, trust is a subjective and nitoring object-reader interaction. Even if the tag communi- 

fuzzy concept, it ? s hard to depict subject trust accurately cation range is short, malicious terminal reader can be detec- 

without detailed conditions. A large amount of trust architec- ted by the organizations after checking the interaction digest, 

ture in e-commerce and ad-hoc network scenarios have been With simulations analyzing the impact of abnormal node ratio, 

proposed, and many computing model such as Bayes decision node density, and tag communication range on the organiza- 

model ， Dempster-Shafer (D-S) theory and cloud model per- tion trust, the hierarchical trust model can effectively detect 

form well in their environments. However, the IoT environ- malicious organizations from their node behaviors and has 

ments are complicated and subjects have different levels of demonstrated good convergence in the distributed IoT envi- 

trust requirements ， none of the current schemas can be ronment. 

directly applied for the IoT environment. This work is supported by the National Natural Science 

In this paper, we propose a hierarchical trust model，in Foundation of China (61100181 ， 61173145)，National Grand 

which a cross-layer trust loop flow is established through the Fundamental Research 973 Program of China (2011CB302605) 

following levels of trust ： phenomenon, event, node, organi- and the National High Technology Research and Develop- 

zation and authorizing, therefore short-term reader trust is ment Program( 863 Program) of China (2011AAO10705). 

derived from the phenomenon and event trust distributively, 





计算机科学 2005Vol. 32 Nq . 8( 增刊) 


一种改进的多源模式匹配算法 

An Improved Multiple Sources Schema Matching Algorithm 


佟冰张忠平宋丽 

(燕山大学计算机科学与信息技术系河北秦皇岛 066004) 


Abstract In this paper，the major ideas of multiple sources schema matching methods are introduced, their ways for 
accomplishing large-scale schema matching are analyj problems in these methods are pointed out. Based on this 
point, an improved algorithm for multiple sources schema matching is proposed, the analysis of computing time and 
matching instances are given, and its correctness is proved. 

Keywords Multiple sources schema,large-scale schema matching 


i 引言 

模式匹配是一个在输人的模式中有对应语义关 
系的元素间产生映射的过程，是数据集成领域的关 
键技术。自上个世纪80年代开始对模式匹配技术 
进行研究，已经提出了大量基于各种模式类型的模 
式匹配方法。例如，华盛顿大学开发的 LSD 系统， 
斯坦福大学开发的 SKAT 系统， Reggio Calabria 大 
学和 Calabria 大学联合开发的 DIKE 系统等等。 

这些系统可以完成一些模式匹配工作，但绝大 
多数系统只能完成匹配基数是1:1的匹配工作，少 
数系统可以完成匹配基数是 n: l 的匹配工作。由于 
m:n 匹配复杂的査找空间，几乎没有现存的系统支 
持 m：n 匹配。 

近年来，隐藏大量信息的在线数据库迅速增多， 
如何集成这部分隐藏的海量信息就成为数据集成领 
域的一个研究重点。因而模式匹配技术也面临着对 
大规模模式进行匹配的挑战，而目前的模式匹配方 
法主要依赖于找到模式间有对应关系的成对属性来 
完成两个或少量几个模式间的匹配工作。这些方法 
显然无法应对大规模模式匹配的挑战。 

本文通过对两种多源模式匹配方法的研究，提 
出了一种改进的算法，以迎接大规模模式匹配挑战， 
并支持复杂的 m:n E 配。 

2现存的多源模式匹配方法 

对隐藏在在线数据库中的海量信息进行集成是 
通过建立査询中介 [1] 来实现的。查询中介是指建立 
一个查询门户，在该门户的查询界面上输人查询条 
件后，该门户可以将查询条件在若干在线数据库源 


中进行査找，最终反馈给用户最优的査询结果。建 
立査询中介首先要对各个在线数据库査询界面上使 
用的属性进行匹配。 

针对这种匹配需求，有两种现存的多源模式匹 
配方法 :全局 评估方法和局部评估方法。全局的评 
估方法列出所有可能的模型，每一个模型都可以生 
成输人的所有模式，已有的原型系统是 MGS 框 
架 [2] ;局部的评估方法独立地列出所有的匹配来逐 
渐地构造一个模型，已有的原型系统是 DCM 框 

站 [3] 

2.1 全局评估方法 : MGS 框架 

MGS 框架以假设存在一个隐藏模型为基础。 
整个框架可以分为三个 阶段： 

⑴假设建模 阶段: 这个阶段为假设的隐藏模型 
具体指定一个参数化的结构。 

(2) 假设生成 阶段: 这个阶段生成能够产生输人 
模式实例的所有可能模型。 

(3) 假设选择 阶段: 这个阶段选择和输入模式有 
最充分统计一致性的模型。 

MGS 框架的最终结果是一个包括所有频繁使 
用属性的模型。如下例 所示： 

例 1：1={<11,16),<12,6>,<13,1),<14,5>,<15, 
3〉}，其中，II = { author，subject} , 12 = { author, 
category}, 13 = {subject} ， 14 = {first name, last 
name, subject}，15= {first name, last name, cate¬ 
gory} o 

执行 MGS 框架后得到的模型如图 1 所示， 
MGS 框架生成了两个最终模型 M1，M2。 其中： 

Ml= {(au： 0.73, fn ： 0. 27) ： 0. 97, ( In ： 1)： 
0. 03, ( su ：0. 71, ca ：0. 29) ： 1}, M 2= {( au ：0. 73, In ： 
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0. 27) : 0.97,( fn ： l )：0. 03,( su ：0. 71, ca ：0. 29):1}。 

从这两个模型可以发现， subject ( su ) 和 catego - 
ry ( ca ) 是同义词，且前者使用概率 较大； subject 或 
category 在任何模式中都出现，因此在査询中介的 
査询界面上一定要存在 subject 或 category 。 au - 
thor ( au ) 和 last name ( ln ) 或者 first name ( fn ) 是同 
义词，这表明 MGS 框架只能发现简单的1:1匹配， 
所以关于 { author } == {first name , last name } 的匹配 
MGS 框架只能发现匹配中的一部分。 



图 1 例 1 模式集合执行 MGS 框架后得到的模型结构 

2.2 局部评估 方法: DCM 框架 

DCM 框架是使用关联挖掘技术对复杂匹配进 
行挖掘的一种多源模式匹配方法。复杂匹配指一个 
含有 m 个元素的集合和一个含有 n 个元素的集合 
间的匹配。由于多源模式匹配技术采用一种整体的 
方法同时对所有的输入源进行匹配，因此可以发现 
在多个模式间属性共同出现的信息。例如，可以发 
现 last name 和 first name 经常共同出现在同一模 
式中，但它们很少和 author —起出现。因此在匹配 
中 last name 和 first name 要出现在 一 个属性组中， 
又因为它们总是共同出现，因而是积极相 关的; 而同 
义词属性总是不同时出现在模式中，因此是消极相 
关的。 

DCM 框架也分为三个 阶段： 

(1) 组发现阶 段:这 个阶段挖掘积极相关的属性 
构造候选属性组，这些候选属性组中只有那些最终 
发现有同义词关系的属性组才能保存到最后。 

(2) 匹配发现 阶段: 这个阶段挖掘消极相关的属 
性构造候选的复杂匹配，由于巧合关联的存在，候选 
的复杂匹配并不一定都是正确的。 

(3) 匹配选择 阶段: 这个阶段选择得到最确信的 
匹配。 

DCM 框架可以很好地发现输人模式源中存在 
的同义词匹配，但没有匹配关系的属性则不再出现。 
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2.3 两种方法的比较 

MGS 框架和 DCM 框架相比较, MGS 框架列 
出了所有可能的模型,反复筛选得到最合理的模型， 
在最终的模型中包含了所有频繁使用属性出现的概 
率以及输人模式源间存在的同义词匹配，为进一步 
开发查询中介提供了重要的信息，但算法的消耗较 
大，同时 MGS 框架只能完成简单的1:1匹配，有一 
定的局限性。而 DCM 框架先后对积极关联和消极 
关联进行两次挖掘，算法的消耗也较大,并且它最终 
得到的只有输人模式源中隐藏的同义词匹配，因此 
在设计查询中介时产生了一定的困难，但是 DCM 
框架可以完成 m: n 匹配。 

3改进的多源模式匹配算法 : IMD 算法 

针对 MGS 框架不能进行 m : n 匹配和 DCM 框 
架不能在最终模型中保留属性出现概率的缺陷，我 
们提出了一种改进的多源模式匹配算法。 

3.1 算法描述 

IMD 算法假设存在一个隐藏的模型，并在生成 
模型的过程中对积极关联进行挖掘，最终生成包括 
属性使用概率和复杂匹配的模型。 IMD 算法分为 
五个 阶段： 

(1) 假设建模阶 段:对 输人的模式集合建模，指 
定模型的参数化结构。 

(2) 积极关联挖掘阶 段:对 输人的模式集合进行 
属性组的挖掘。将挖掘到的候选属性组添加到输人 
模式集合中。 

(3) 建立一致概念阶 段:对 所有属性和属性组构 
成的词汇表建立一致概念，找到候选的同义词匹配。 

(4) 匹配选择 阶段: 对候选匹配进行选择，去除 
不合理的匹配。 

(5) 建立最终模型阶 段:去 除阶段2中挖掘到的 
但没有产生同义词匹配的属性组，将阶段4选择得 
到的匹配和词汇表中其余频繁使用的属性一起建立 
最终的模型，并使用最大似然估计对模型中属性使 
用的概率进行评估。 

算法 3.1 IMD 算法： 

输入 楔式集合 I, 度量标准 mp, 阈值 Tp，Td 
输出 匹配模型 

Improved MGS and DCM algorithm(I ， m p ， T p ， T d ) 

(1) / * 选择频繁屆性来构造模型 * / 

V=ATTRBUTESELECTIONCY Ii )； 

/ * 选择频繁使用词汇进人词汇表 * / 

For each Ii 

/* 去除输人模式中非频繁使用的属性 * / 

{ For each AiG Ii 
WiAi^V then li=li-Ai) 

} 

(2) / * 用 Apiori 性质进行属性组挖掘 * / 

APRIORICORRMININGCI, nip, T p )； 

For each 7 

/* 将属性组加人到输人的模式中 * / 

{For each G^GG 

(If lif)Gk^ then Ii—IiLMGk}}} 

(3) /* 建立一致概念 */ 
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C= CCONCEPTSCONSTRUCTlON(l )； 

(4) / * 进行匹配选择 * / 

MN=MATCHINGSELECTION ； 

(5) /* 建立最终模型 */ 


if MN^tp then 

/ * 判断县否有同义词匹配存在 * / 

{For each Gk^：G 
{if $6MN then C=C~Gk 
/* 去除没有产生同义词匹配的组属性 * / 

else {For each Aj G Gk 

/* 去除和属性组中属性重复的属性 */ 、、 

{C=C-A;；}} 


M=BUILDFINALMODEL(C ) ； 

/* 建立最终的模型 */ 
MAXIMUMLIKELIHOOD(M) : 

/ * 对模型中的厲性使用概率进行评估 * / 
(6)/* 返回最终模型 */ 
return (M). 


3. 2算法分析 

IMD 算法融合了 MGS 框架和 DCM. 框架的模 
式匹配思想，将全局的评估方法和局部的评估方法 
相统一，形成了一种独立的评估方法，使用该方法可 
以同时完成1:1和 m:n 匹配,并且在提供匹配信息 
的同时提供属性的使用概率。 

MGS 框架生成所有可能的假设模型,利用最大 
似然估计对每个模型中的属性评估概率，并使用/ 
假设测试对每个假设模型进行检验，不断去除不合 
理模型，得到最终模型。而 IMD 算法先对候选匹配 
进行选择，得到全部合理的匹配后，再生成最终模 
型，只使用一次最大似然估计对最终模型进行属性 
概率评估。因此 IMD 算法的计算时间消耗明显小 
于 MGS 框架。 

DCM 框架利用 Apriori 性质 w 对同义词匹配 
进行挖掘，这个挖掘过程的时间复杂度是指数级的； 
而使用建立一致概念的方法发现同义词匹配的时间 
复杂度是 o(« 2 ), 其中 n 为词汇表中词汇的数量。 
因此 IMD 算法的计算时间消耗也明显小于 DCM 


图中 Gif 代表 first name 和 last name 组成的 
属性组，在算法的积极关联挖掘过程中产生了两个 
候选属性组 [first name, last name ] 和 [ author, 
subject] ，由于在建立一致概念阶段没有发现和属性 
组 [author, subject] 有同义词关系的匹配，因此去 
除了该属性组。在最终模型中包含了两个同义词匹 

配 {subject, category} 和 {author, [first name, last 

name]} ，这表明 IMD 算法可以发现 1:1 匹配和 
n 匹配，而且最终模型中包括各个属性使用的 频率。 
和 MGS 框架的执行结果相比较， IMD 算法得到的 
模型将为进一步设计査询中介提供更为有利的信 
; 营、。 

通过 3. 2节对算法的分析，可知 IMD 算法在计 
算时间消耗上明显小于 MGS 框架和 DCM 框架，而 
且通过匹配实例，可知 IMD 算法得到的最终结果明 
显优于以往的两种多源模式匹配 方法。 

3.4 算法的正确性 

IMD 算法中属性组的挖掘使用关联挖掘方法， 
已经证明可以完成发现属性组的任务;建立一致概 
念阶段实质是找到属性间没有共同出现的信息，可 
以通过扫描输入模式集合 实现; 匹配选择是对候选 
同义词匹配的消极关联程度进行排序，循环选择消 
极关联程度最高的匹配，也是正确的;最后使用最大 
似然估计对模型中属性使用概率进行评估也已经在 
MGS 框架中应用过，经试验证明是可行的。因此算 
法整体是正确可行的。 

结束语模式匹配一直是数据集成领域的关键 
技术。为了更好地解决匹配规模和复杂匹配的问 
题，本文在两种多源模式匹配方法的基础上，提出了 
一种改进的多源模式匹配算法，并进行了计算时间 
的分析，给出了匹配实例,说明了算法的正确性。其 


框架。 

3.3 实例分析 

使用 IMD 算法执行 2. 1节中例1的匹配实例, 
其中 Tp = 0. 85, Td = 0. 6,得到的模型结构如图 2 
所示，得到的模型为 ：M= {(au：0.73,[fn, In]： 
0. 27)：0. 97,(su：0.71,ca：0. 29):1}。 


M 



图 2 例 1 模式集合执行 IMD 算法得到的模型结构 


成果将为进一步集成隐藏在在线数据库中的海 fi 信 
息奠定 基础。 
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□□□□□□□□□□□□□□□□□□□□ 

Apriori □ □ □ □ □ [16 ~ 181 Q Q Q Pattern-Growth 

□ □ □ [VO □ Apriori □□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□ 
Yan[] Han □ □ □ 2002 □□□□□□□□ 

Pattern-Growth □□□□□□□□□ gSpan |4I Q Q 

□ □□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□ ffsm [191 d 
spin [201 q □□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□ 

□ / □□□□□□□□□□□□DDDDDDD 

□ □□□□□□□□□□□□□□ [51 D □ □ □ □ 
□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□ 


□□□□□□□□□□□□□□□□□□□DO 
□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□ 
□□□□□!□□□□□□□□□□□□□□□□ 
□ □ □ □ 



□i □□□□□□ 


3.1 □□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ 
□□□□2Q«□□»□□□□□□□□□□□□ 
『□□，，□□□□□□□□□□ 2D □ □ □ □ □ 
□□□□□□□□□2D□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ 
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□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□ 

□ □□□□□□□□□□□ (dendrogram) D Q 

□ £>□□□□□□□□□□□□□□□□□□□□ 

□ ={V,E,L)Q 

□ □□□□□□□□□□ £» g ={C,.L，(：__,}□□ 

□ □□□□□□£>«□□□□□□ CeD G Q □ □ □ 

□ veG，V □□□□□□□ C c 2 g " (2 g - v Q □□間 
G,VQ □□)□□□ DZ) G D □ □ G,VQ □ □ □ □ □ D 

□ □ □ veG,V □□□□□□□ We G,V □□ □ 
{〔} e A ； □ □ □ C leaf □ A □ □ □ IG，V I -1 □ □ □ □ 

□ □□□□□□□□□□ c nonleaf □□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□ 

D [] [] [] [] 口 G £> G □ C nonl(!af = (p l e f, > C righ t ) D 

□ □口 C lef ,，C □ 
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□□□□□□□□□□□□□vQ□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□ 

□ □□□□□□□□ (PRM，propagation model) 


2IE CcGV I 

r (C )= - : - 

1C I (1C 1-1) 

□ □ DE CcG v □□□ c □ □ G □ □ □ □ □ □ (induced 

subgraph® □ □ □ 

□ □ □ □ nQ □ □ □ □ □ □ Hn □ □ □ □ 

r(C)Q □ □ □ □ □ IC,E !□□□□□□□□ 

□ □□(□□□□□ 2DDDDDDDDDD)DD 

□ □□ 0< r (C)< IQ 

□ □ 2 □□□□□□□□□□□□□ G={V,E,L} 

□ □□□□□□□□□ W={C t .L ,C n }DD □ □ □ □ 
C e W □ C □ WU □□□□□□□□ 

NN(C) = {C r G WlLJC^e W:r(C",C)>r(C ， ,C)} 



i«;| (/.} (c) \J) (e) {/) 

□2 □□□□□□□□□□□□□ 


□ □ 1 □□□□□□□□□□□□ 

□ □ □ □ G =(V,E,L)D 

□ □□□□□□□£»«□ 

nruunuun 

□ T =D, ={{v,},L ,{v n }, Vi eG,V □ 

While \T \> 1 

□ □ □ □ C eD □ 

□ □ □ □ C’eZ) □口 C’ = argmaxO(C UC’)) 口 
T =T U{r UC} — C'_C 口 

□ - {C^CJ-D □ ~Z) g d 
E nd While 

□ □ £»3 D 

□□□□□□□□□□□□□□2D□□□□ 

□ □□□□□□□□□□□□□□ n(n>2 ) 口 □ □ □ 

□ □□□□□□□□□□□□□□□ n(n>2)Q □ □ 
□□□□□□□□□□□□□□□□□□□□□ n 

□ □□□□□□□ 2Q□□□□□□□□□□□□ 

□ □□□□ (!□□□□□□□□□□□□□□□□ 

□ □ □ □ n(n>2 ) 口 □□□□□□□□□□□□ 

2IG,V I-1QD □ □□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□a 

□ □□□□□□□ 2DDDDDDDDDDDD 

□ □口 
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□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□ 

3.2 □□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□ 
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□ □ e 

□ vn 
51 1 , 

LlL 

□ □ VP 

□ □ 


□ D 

□ □ 
□ □ 
□ □ 
D D 
□ □ 
□ □ 
D D 
□ □ 
□ □ 
D □ 
D D 
□ D 
6 D 
]□ 


[□ 
2 □ 

□ D 
D D 
□ 
□ 


2 □ 

□ □ 

D D D 
D D D 
D D D 
□ID 
□!-□ 
D ^ □ 

□G, 口 

DID 

□ □ □ 
□ □ □ 
□ □ □ 
□ □ □ 
□ □ □ 
ODD 

V， □ □ 
IGlnl □ 
□ □ □ 
D □ □ 
□ □ □ 
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n n n n 


门 33 门 


□ 4 □ 3(b ) 口 □□□□□□□□ 

□ leL(u)D □□ DiOOd □ u □ □ □ i □ □ □ 

□ □□□□□□□□□□□□□□□□ D ^ uxi ^ 
0,1,L ,n) □ □□□□□□ den(l,u),/den(l,u) ， L ， 
/ n den(l,u)Q □□□□□□□□□□□□□□ 

□□ !□□□□□□□□□□□□□□ 

I 一 L 

□ 1QD □ den(l ， u) = l-/ □□□ 2[] □□□□□□ 

□□□□□□□□□□□ 

□□2 □□□□□□□□□□ 

□ □□□ g =^ v , e , l)ddd /□ 

□ □口 den(l,v)Q 

□ □□□□□□ G =j lvNU =0□ 

FOR VI eL (V) 

IF(vQ □ □ □ d(v)Q ) 

□ □ □ 


□ □□□□ CD □ □ ID □ C □ □ □ □ □ 

V den(l,v) 

den (l,C)=^^ -- 

1C I 


□ □ vQ □ □ D 


imp, (u v )： 


(1-/ ),U =v 


□ □ID uQ □ □ □ vDDDDDDDDD p_ v □ 


□ □□□ u □ vDDDDDDDDDD 
p = (p 0 ,L ,p„)e P U ^ V D □ □ □ u = p 0 ,v= p„D □ □ 

□ □□□ip l=nDDDDDD cKpjDDQ PiQ □ □ 
0 <l eld □□□□□□ 

□ □ uq □ □ m □ □ □ 

den(l,u)= Y, imp,(vu) 

velns(l) 


□ □□□□ idd □□□□□□□□ DO idD □ □ 
□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ 

□ I □ □ □ ▽□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□ 

□ □ !□□□□□□□□□□ !□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ 
□ □ □ □ 

□ □ 3 D □ □ LabeliD □ Q a □ □ □ □ Q Q 

□ □□□□□□□□□□ LabeliQ □□□□□□ 

□ □□□□□ 3(a)Q □ Labeli Q □ □ □ a □ □ □ 

□ □□□□□□□□□□□ bD CD d □ D □ 3(b) 

□ □□□□□ Labeli□ □□□□□ 2^ □ □ □ □ 

□ □□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□ 



(a) □□□□□□ (1 □ ) (b) □□□□□□ (2 □) 


□3 □□□□□□□□□ 



□ □ 

□ □ □ 


I □口 
□ □ 
} □ 
u)}□ 
X G 


DVD 
i-i G，□ 


D □ D 
□ □ □ 
D □ □ 
□ □ □ 

□ □ D 

□ □ □ 
D D I 

D □ D 
□ □ □ 

□ □ D 

□ Dv) 

□ 

D D G 

□ □ I 

□ □ □ 
□ □ ^ 
□ □ □ 
□ □ □ 
□ □ □ 
□ □ □ 

□ □ 
□ V 


□ □ 
□ □ 
□ □ 
□ □ 
□ w 


1 □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 

□ I 

□ □ 

□ □ 

□ V ， 

□ G 


□nn 
ID □‘ 


c □ 
□ □ 
□V) 

mM 


□[ 
V □ 

□ □ 
I □ 

D D 


□ I 

z 

□ n 

□ □ 
□ □ 

□ □ 
口 — 




n 5n 


nnnnnnnnnnnnnnnnnnnnnn 


■ 43 . 


den(l,C)s l{VgG - V " £L(V)}l 

|C| 

l{ve G,V ll eL (v)}l □ □ □ □ 丨 □ □ 

G ={V,E,L)Q □□□□□□□□ !□□□□□□ 

□□□□□□□□□□ID□CDDDDDDDD 

□ 广⑽ I 口 

□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□ top-n □ □ □ □ 

□ □ □ 

□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□ 

□ □ top-n □□□□□□□□□□□□□□□□□ 

□ □ 4Q □ □ □ □ □ □ 

□ □ 4 □□□□□□□□□ nQDDD (l,C) 

□ □□□ G =^V,E,L )□ □ □ nO 

□ □□]□□□□□□□□ top-n □ □ □ (l,C)D 

□ □ □ top-n □ □ v = 0 □ 

□ □ □ □ !□□□□□□□□ CQ 

WHILE (：□□□□□□□□□□ 

FOR VI e L (C ) 

□ □□□ 1 □ □ □ 2Q □ □ □ □ (I.C) 


(threshold algorithm)!] □ top-n □ □ □ □ □ 

□ □□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□ 

□ □1 DDDDDDHIDD G=^v,e,l)D 

2 □口 C „ C 2 cG,V □□□□□□□ IQ □ 

min ( spc , ( CjXspc , ( C ,：)) < spc , ( C t UC 2 ) 

S max ( spc , ( C ,), spc , ( C 2 )) 


spc, (C )： 


P ( IIC ) den ( l , C ) 


P(I IC c ) den ( l , C c ) 


□ □□ C c =CDD C □ □ □ (complementary set ) 口 

□ □□□□□□ CQ □ !-□□□□□□ ID C 

□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□ 

5.2 □□□□□□□ 

□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□ 叩 □□□□□□ I 

□ □□□□□□□□□ CQD spc,(C)D □ □ nQ □ 

□ □□□□□□ 

□ □□□□□□□ top-n □□□□□□□□□ 


ENDIF 

FOR VI s L (V) 

□ 口 traverse(vO IQ 1- / )□ 
ENDFOR 
ENDFOR 

□ □ den(l,v) = G □ 

□ □ 3 □□□□□□ traverse() 

□ □ □ vD IQ value 口 

□ j v> , = value 口 

IFvQ □ □ □ d(v ) 口 

□ □ □ 

ENDIF 

FOR □ □ V □ □ □ □ □ U 

„ „ , 、 l value 

□ □ traverse(u,l, )□ 

d(v) 

ENDFOR 


□ 

□ 

D 

?□ 


□ 


□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 

□ □ 
□ ? 

□ □ 
□ □ 
□ □ 


□ 

□ 

V/ 

L 


II 

G 

□ 


□ 


□ 

D 

□ n 

□ n 

□ n 

□ n 

□ n 
n 

2 

n 

□.V 
D G 
U 

c 


□ D D 
D □ □ 
D □ D 
D D D 
D D D 

□ □ □ 
D □ □ 

□ □ □ 
□ □ □ 
D D D 


□ □ 
□ □ 
□ □ 
D D 
□ □ 
D □ 


D 

□ 

D 

□ 

□ 

□ 

□ □) 

□ □I.C’ 

□ Do 

D □ □ 

□ □ □ 

□ □ □ 


□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
D □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
D □ □ 

D □ □ 

D 4 □ 

□ □ □ 

□ □ □ 
□ 

5 D 


□ □ 
□ □ 
□ □ 
□ □ 
□ □ 


□ 

D 


□ 

□ 


□ 

D 


□ 

D 


□ 

D 


D 

□ 


□ 

□ 


D 


□ 

D 


D 

D 


D 

□ 


□ □ □ 
D D D D 
D D D D 
D D D D 

o o o J 

D D D 


□ □ 
□ □ 
D D 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ 
D 


L ， 

E 

II 

G 

□ 

□ 

□ 

D 

□ 

□ 

□ 

□ 

-□ 

4 

□ 

□ □ 

D 

D 


□ 

□ 

-□ 

□ 

c 

□ 

□ 

□ 

D 

□ 

□ 

D 

D 

V’ □ 
G D 

匚 □ 

c □ 
D □ 
□ □ 
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n 33n 


(» 2 k 41 r*k 8 k 10 k 1 (^' 10 1 10 - I 0 ? 10 4 10 5 

货点 W 点 

⑻口 □ □ □ (b ) 口 □ □ □ 

n 5 nnnnnriDBnnn 


□ □ □ □ □ 

if{ (i,c)n □□□□',} 

□ □ □ 

ELSE 

□ 口 〈 i ， c 〉 口 □□口 口 spci(on n □ 

□ v men 

ENDIF 
ENDFOR 
END WHILE 

□ □CD 

6 □□□□ 

□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□ 

□ □ □ □ Java □□□□□□□□□□□□□□ 

□ in n n 


□ □ □ □ 


CPU 

Intel Core 2 Q9550 2.83GHz 

n n 

8GB 

□ □ □ □ 

CentOS □ □ 2.6.18 

n n n n 

Java Runtime Environment 1.6 



6.1 □ □ □ 

□ □□□□□□□□□□ 9 n n n n n 

(SIGMODD VLDB [] PODS [] ICDE [] ICDT [] DOOD [ 
EDBTQ SSD □ CKM ) □ □ □ □ □ 2010 □ 4 □ □ 
□ □□□□□□□□ 

□ □□□□□□ 12 004 □ □ □ □ 10 372 □ □ 

□ □□ 34 173 □□□□□(□ □□)□□□□□□ 
DBLP (\ url{httpG // dblp . uni - trier . de / xml /}) □□口 

nnnnnnnnnnnnnnnnnnnn 

2nnnDnnnDnDnDnnnnnnnnn 

□ □□□□□□□□□□□□□□□□ (□□)□□ 

□ □□□□□□□□□□□□□ db nnnn 

□nnnnnnnnnnnnnnnnnn 

□□□□□□□□□□□□□nnnnnnn 

(porter stemming algorithm ) 1211 口 □□□□□□□□ 

□ □□□□□□□□ 150 □□□□□□□□ 

(stopword list ) 口 

n n 5 ~n 7n □ □ n on 20 □□□□□□□ □ 
□□□□□□□□□□□□□□□□□□□□□□□ 

□ □ □ □ □ 


□ □ 


//snap.stanford.edu/data/twitter7.htmI}) □ □ □ □ □ 

□ □ □ API □□□□□ IDnnnnnnn (con¬ 
nected component)!] □□□□□□□□□□ ID[] □ 
ID [] D WFW (who follows whom[twitter □ □ □ □) 

□ □□□□□□□□□□□□ ID [] 120h □ □ □ 

□ □ □ □ □ id n n n no n n n is 012 823 □ n 

□ id n n n n n 33 237 699 n wfw □ □ □□ □ 
nnnnnnn tw□□□□□□□□□□□□ 
□□□□nnnnnnnnnnnnnnnnnn 

□ □ □ □ □ 

6.2 □□□□□□□□□ 

□ 80 □□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ 

□ □ □ 


(a)n n n n (b)n n n n 

n 6 nnnnnnnDBnnn 



(a)D □ □ □ (b)D □ □ □ 

□ 7 □□□□□□ twitter □ □ □ 


□ □□□/□□□□□□□□□□ 2n n n n n 

(w h 

□ □□□□□ I E l« ^ □ 

I 2 J 

□ □ □ □ 2010 □ 4 [] □ □ □ twitter (\ url { http 口 




4(2(00s s4(»20 
趙 m\ 


i(y 
.10' 




10' 



V o n- D n D o 

,• o 5 0 5 0 5 
,• 3 2 2 1 I 

鉉 


ni^'aE 

2. 製 垆 







6 k Uk 18 k 24 k 

标注显将性指标 

□ 10 □□□□□□□ — □ □□口 

□ □ 10 □□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□ io □□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□ 

□□□□□□□□□□□□□□□□□□a 

□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□ 2Q □ □ □ □ 10 □ 3 000 □ □ □ □ 

□ □□□□ 3 000 □□□□□□□□□□□ 70% 

□ □□□□□□□□□□ 3Q □□□□□□□□ 

□ □ 

6-4 □□□□ 

DB □□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□ TW □ □ □ 

□ □□□□□□□□□□□ 


□ □□□□□□□□□□□ □□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□ 

□ □□□□□ □□□□□□□□□□□□□ □□口 

□ □□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□ □口 

□ □□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□ db□□□□□□□□□ 

□ □□□□□□□□□□ 

□ 9D□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□ 

□ □ □ □ □□□：□□□□□□□□□□□ 

V / 

□□□□□□□□□□□□□□□□□□□□□□ 
□ 5D□□□□□□□□□□□□□□□□□□□ 



籐大小 
⑻口 □□口 


m 

IO 1 

族大小 
(b)D □ □ □ 

□ 9 □□□□□□ DBnnn 




nnnnnnnnnnnnnnnnnnnnnn 



o o o ^ 

1 七； 7 黎 1 


0 5 0 5 0 
3 2 2 1 — » 

，一 om 


D o u o o 

□ □ D □ □ 

□ □ D □ □ 

□ □ □ □ □ □ 

□ □ □ □ □ □ 

D D □ D D D 

□ D □} □ □ 

□ □ 3I.C，□ □ 

D D D D D 
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Abstract: There are three core issues recognized for WAN-based distributed Web crawling systems: Web Partition, 
Agent collaboration and Agent deployment. Centering around these issues, this paper presents a comprehensive 
overview of the current strategies adopted by academic and business communities. The experiences, problems and 
challenges encountered by the WAN-based distributed Web crawlers are classified and discussed in depth. A 
summary of the current evaluation indicators is also given. Finally, conclusion and some suggestions for future 
research are put forward. 

Key words: search engine; WAN-based distributed crawling; Web partition; agent collaboration; agent 
deployment 

摘要： 分析了广域网分布式 Web 爬虫相对于局域网爬虫的诸多优势，提出了广域网分布式 Web 爬虫的 3 个核心 
问题 : Web 划分、 Agent 协同和 Agent 部署 . 围绕这 3 个问题，对目前学术界和商业界出现的多种实现方案和策略进 
行了全面的综述，深入讨论了研究中遇到的问题与挑战 , 并论述了广域网分布式 Web 爬虫的评价模型 . 最后，对未来 
的研究方向进行了总结 . 

关键词： 搜索引擎 ; 广域网分布式爬虫 ; Web 划分 ; Agent 协同 ; Agent 部署 
中图法分 类号： TP393 文献标 识码: A 

搜索引擎作为互联网上-种有效的信息获取渠与电子邮件、即时通信并称为互联网三大基础应用，在 
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人们的日常生活中发挥着重要的作用.然而，互联网的飞速发展使搜索引擎面临巨大的挑战 .2008 年 1 月发布的 
《第21次中国互联网络发展状况统计报告》 [1] 显示，中国网站数量已达150万个，比去年同期增长了 66万个, 
增长率达到78.4%;中国总网页数为 84.7 亿个，年增长率达到89.4%;网站总字节数己经达到198 348 GB . 按照目 
前的统计数字，假设搜索引擎爬虫系统的网络接入总带宽为 lOOMb / s , 即使这些带宽被完全利用,仅下载中国的 
网页就需要近200天.如此巨大的数据量，使得对网页内容和链接关系的处理必须由多机并行完成. 

分布式 Web 爬虫是由多个可并发获取 Web 信息的 Agent 构成的 Web 爬虫系统，每个 Agent 运行于不同的 
计算资源之上，这些资源或集中部署在同一个局域网 (local area network , 简称 LAN ) 内部，或分布在广域网 (wide 
area network , 简称 WAN ) 的不同地理位置和网络位置，每个 Agent 以多进程或多线程方式通过并发保持多个 
TCP 链接获取 Web 信息.部署于 LAN 上的分布式 Web 爬虫受到带宽等因素的制约，已经不能对 Web 进行快速 
而有效的抓取.基于广域网的分布式爬虫实现方案具有多点接入总带宽较高_对 Internet 负载较小、容易实现 
就近高效抓取以及可扩展性强等优点，己经成为学术界、商业界和开源社区爬虫系统实现的优选方案. 

广域网分布式爬虫融合了分布式系统、并行计算及网络测量 f 主题, k 有很强的应用价值与理论研究意 
义.本文第1节概括总结广域网分布式爬虫近年来在商业界和学术界的发展现状.第2节~第4节详细讨论广域 
网分布式爬虫领域亟待深入研究的3个关键 问题: Web 划分、 Agent 协同和 Agent 部署，详细论述了解决这些问 
题的多种方法及策略，对其优、缺点进行评价.第5节给出目前流行的分布式爬虫的评价模型.最后，对全文进行 
总结，并指出未来研究的若干方向. 

1引言 

在分布式 Web 爬虫领域,商业界 g 学术界各自为战，许多优秀的实现方法不是源自于学术界，而是来自于一 
些公司.出于商业因素的考虑,公司成果一般 Y 通过论文公开 发表; 而学术界的研究成果虽然公开，但是被大规 
模采用的并不多;另外，还有一些组织和个人以 GPL(GNU general public license ) 的方式开发和发布自己的系统. 
遗憾的是,这类系统也很少以论文形式发表. 

部署在 LAN 上的分布式 Web 爬虫率先被提出，并得到广泛的使用.较为著名的有早期的 Google [2] ,AltaVista 
的 Internet Archive C . rawler [3 ]， Mercater [4] 等.但是，由于受到带宽等瓶颈因素的制约，此种系统即使软硬件的规模 
不断扩大，也只能获取全体 Web 信息中相对较小的一部分.为了解决上述问题，人们提出了部署于广域网环境的 
分布式 Web 爬虫. 

1.1 相关工作 

近几年来，商业界和开源社区出现了一些广域网分布式爬虫系统(或搜索引擎)，其思路一般是公司或组织 
向用户提供爬虫程序.一方面，分布在各地的用户运行自己机器上的爬虫程 序索& 司提供 数据; 另一方面，公司 
为安装有爬虫的用户提供各种检索服务，如 Ya C y ( htt P : // ya C y . net /) 的个性化匿名检索，甚至将利润反馈给用户(如 
Faroo ( http : // www . faroo . com /)). 在实现方面，这些系统有的是类似于 SETI @ Home [51 那样的主从式结构（如 
Majestic ( http :// www . majesticl 2. co . uk /)), 属于有调度中心的 Agent 协同;有的是 P 2 P 方式进行分布式调度(如 
Faroo ), 即无调度中心的 Agent 协同.这些系统的实现五花八门，但 是由* "于发展时间较短，规模相对较小. 

在学术方面, C . ho 等人 [6] 首次给出了分布式爬虫的分类方法、评价指标等一系列基本概念，并提出基于广域 
网分布式爬虫与部署于 LAN 的系统相比，具有高可扩展性和减少 Internet 负载的优点，为广域网分布式爬虫的 
研究奠定了基础 . UbiCra We r [7] 扩展了文献 [6] 中的一些概并声称可以支持基于广域网的分布式平台 .Dustin B 
等人 [8] 对多种分布式爬虫进行了比较，提出广域网爬虫是解决爬虫系统带宽瓶颈的有效方法 . Yahoo 研究院的 
Baeza - Yates 等人 [9] 在其综述中将分布式爬虫定义为“原则上某些节点可以分布于不同的地理或网络位置”. 
2003年后，很多研究开始关注广域网分布式爬虫，代表性的有 , IPMi C ra [1()] 第一个基于位置信息调度的分布式爬 
虫, SE 4 SEE [11] 实现了基于网格 [12] 的分布式爬虫, Apoidea [13] 实现了基于 P 2 P 协议的完全分布式爬虫. 

国内学术界对分布式爬虫研究得较少，代表性的有北京大学的天网搜索引擎 [14] 的爬虫系统,这是一个基于 
LAN 的爬虫，己经开始商业化 运作; 上海交通大学的 Igloo 爬虫 [15] 实现了基于网格服务的分布式爬虫 ( IglooG ), 
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网格的特性使其能够支持广域网部署. 

1.2 分布式爬虫的基本结构和工作流程 

由于爬虫要下载多个网页，而各个网页的下载过程之间依赖性较小，因此可以被并行化.为了高效地下载网 
页，爬虫程序一般被设计为多线程和多进程协同的方式，而分布式爬虫是将多个具有抓取网页功能的 Agent 分 
别部署于多个计算资源之上的爬虫程序.以下是分布式爬虫中每个 Agent 的大致工作流程(其中，左侧带*号的 
两行代码可能需要多机协同完成).为了突出 Agent 对 URL 的处理，算法描述省略了域名解析、对网页和 URL 
的预处理以及解析网站的 Robots . txt 文件的过程. 

URL Seen : 用于存储己经抓取过的 URL . 

URL 队列 :用于 存储待抓取的 URL . 

输入:初始 URL 列表. 

Agent (初始 URL 列表 ）{ 

将初始 URL 列表中的 URL 放入 URL 队列； 
while ( URL 队列不为空 ）{ 

从 URL 队列中取出_ -个 URL ; 

将 URL 存入 URL Seen ; 

下载 URL 指向的网页； 

提取网页中含有的 URL ; 
for (每一个新发现的 URL ) { 

if ( URL 应由本 Agent 负责） { 

if ( URL 不在 URL Seen 中 && URL 不在 URL 队列中） 

将 URL 放入 URL 队列； 

} else { 

通过一定的 Web 划分方法选择负责当前 URL 的 Agent ; 

将 URL 发送至此 Agent ; 


1.3 广域网分布式 Web 爬虫的优势和挑战 

广域网分布式 Web 爬虫与基于 LAN 的分布式爬虫或称局域网爬虫相比具有诸多 优势： 

(1) 可扩展性 

可扩展性是局域网爬虫的致命缺点，也是提出广域网分布式爬虫的主要原因.首先，广域网系统能够容纳更 
多的计算资源，拥有更多的网络接入点.理论上,整体吞吐量可以无限纩展;局域网爬虫因其计算资源数量受到 
LAN 的限制，很难扩展到较大的规模,从而限制了系统整体吞吐章.其次，广域网系统是由若干个相对较小的机 
群甚至单机节点组成，这使得资源添加和系统维护都变得\相对简单.如果能够进一步利用分布在 Internet 上的个 
人计算资源，则维护开销将大为 降低; 相比之下，在 LAN 中维护大规模机群的代价则非常昂贵，需要解决数据存 
储、系统互连、机架结构、电源、散热等诸多问题. 

(2) 多网络接入点 

爬虫在抓取网页时, HTTP 请求和下载网页的过程需要占用系统网络接入点的大部分带宽.对基于 LAN 的 
系统,随着机群规模的扩大，接入带宽将变为系统瓶颈.如果爬虫程序分布在不同的网络位置，就可以使用多个 
网络接入点，理论上可以获得相_于这些接入点加和的总带宽.并且随着网络接入点数量的增加，系统的总带宽 
也会相应增加，理论上带宽可以无限扩展. 
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(3) 减少对 Internet 的网络负载 

爬虫程序在发出 HTTP 请求并下载网页时,大量数据报文的传播增加了 Internet 的负载，在一定程度上影响 
了 Internet 的服务质量.如果能够实现就近抓取，即布置在不同地域的分布式爬虫仅负责抓取距离自己相对较近 
的网站，则广域网分布式爬虫可以将系统带给 Internet 的网络负载控制在局部.而对于基于 LAN 的爬虫，由于其 
网络接入点单一，大量数据包要经过较长的路径才能到达目的地，从而给路径上的所有网络资源(如路由器、交 
换机、网关等)带来压力. 

广域网尤其是 Internet 环境比局域网要复杂得多，系统一旦架设到广域网环境就会受到诸多限制.如何有效 
利用广域网资源同时又能消除广域网环境的不利影响，是广域网分布式爬虫研究所面临的重大挑战.本文针对 
当前广域网分布式 Web 爬虫的研究和实践，总结出这一领域的3个关键 问题： 

(1) Web 划分 :如何 将抓取 Web 这个巨大的任务切分成多份，交予系统中的多个 Agent 执行. 

(2) Agent 协同:多个 Agent 之间应该如何进行协同工作，如何进行互联与通信户 

(3) Agent 部署 :如何 利用现有硬件和网络资源构建广域网分布式爬虫系统. 

这3个关键问题在广域网分布式 Web 爬虫研究中的层次结构如图1所 示:最 上层的 Web 划分强调的是逻 
辑问题，相当于决 策层; 最下层的 Agent 部署强调的是物理问题,它作为系统的基础是工程性很强的 一层; Agent 
协同则既涉及物理又涉及逻辑，包含了程序实现和网络环境分析鋅多方面的问题. 

Web partition 
Agent collaboration 
Agent deployment 


Fig.l Hierarchical relationship of the three core issues of WAN-based distributed Web crawling 

图 1 广域网分布式爬虫 3 个关键问题的层次关系 


2 Web 划分 

系统中各个 Agent ~在抓取过程中会不断地发现新的 URL , 而这些 URL 中存在大量的重复.如果将这些新 
URL 直接交由发现它的 Agent 抓取，那么将会引起多个 Agent 下载相同的网页，从而引起重复工作，降低整体的 
网页抓取效率 . ft 此，需要_ •种为各个 Agent 分配 URL 的策略，由此提出 Web 划分的概念. 

2.1 Web 划分的定义 

定义 l(Web 划分集合和 Web 划分集合的分类). 设分布式 Web 爬虫由 7 V 个 Agent 组成, Web 上所有网页 
的集合为 R 对于 F 的子集的集合5={负,爲，饵，...,也},如果满足： 

其中/是一个较小的整数，它表示各子集之间的交集应当最小化，则称集合5中的元素展 z '= l , 2，...,况为一个 Web 
划分集合.将 Web 分割为 Web 划分集合爲,爲，/%，...，馬的过程称为 Web 划分集合的分类. 

定义 2(Web 划分). 设分布式 Web 爬虫由况个 Agent ® (成, Agent 的集合^^{(^，(^，兩，...,《%}，对于定义1中 

的集合 B ={ p u H .., p N } 跑、 - ■映射爲 ( Z = l ,2,‘.、., Ay = l ,2,...,7 V^*WS Web 爬虫的 Web 划分. 

定义 3( 跨分区链接和分区内链接). 如果链接 URL X 属于 Web 划分集合爲，链接 URL y 属于 Web 划分集合& 
而 C / ieL 、. 指向的网页上有一条指向的链接，这个链接就跨越了划分集合，称这种链接为跨分区链接 
( inter-partition link ); 如果链接没有跨 Web 划分集合,则称其为分区内链接 ( intra-partition link ). 

2.2 Web 划分单元 

Web 划分单元的选取是实现 Web 划分时必须考虑的问题 .Web 划分单元是 Agent 在工作过程中所负责抓 
取的最小集合，凡是包含于划分单元的网页，全部由一个 Agent 负责抓取.用于 Web 划分单元的某些属性的集合 
称为划分属性，用于指导对 Web 划分单元的分类.这些属性可以来自 URL 字符串本身,也可以来自与 URL 相关 
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的某些事物,如网站 IP 地址、网页内容、第三方信息等. 

根据广域网环境下实验的经验,广域网分布式系统在进行任务划分时粒度必须适当地大，以保证各个节点 
具有较高的计算通信比,尽量降低信息交换引发的时间开销 .Web 划分单元对应任务粒度的概念，因此这样的结 
论同样适用于广域网分布式爬虫.下面讨论两个典型的 Web 划分单元(以下简称为单元 ), 并对其划分属性及优 
缺点进行论述. 

(1) 链接 ( URL ) 

URL 是 Web 爬虫研究中最小的 Web 划分单元，优点是简单、直观，缺点是粒度太细.由于 Web 上存在的链 
接比网站总数要多得多，对 URL 进行分类的工作量是十分巨大的.与主机名相比, URL 所携带的划分属性比较 
少,仅能显示文件类型等信息. 

(2) 主机 ( host ) 

以 URL 中的主机名(即 hostname , 比如 URL : http :// www . sina . com / index.html 的主机名为 www . sina . com ) 为 
Web 划分单元，是大部分分布式 Web 爬虫的首选.相对于以 URL 为单元而言，本 1 方法产生的跨分区链接较少.因 
为处于同一个主机的 URL 必然会被分配到同一个划分集 合中; 而在以 URL 为单元的情况下，这些 URL 可能会 
被分配到很多不同的 Web 划分集合中，这样，主机内部的链接也变成了跨分区链接.对主机名的一种延伸是域 
名，由于一个域名下可能拥有若干主机，因此域名是一种粒度#大的 Web 划分单元.主机所具有的划分属性主要 
有 IP 地址、网站类型 (.《!,. org 等，后面将讨论 ：) 等. 

除了以上两种单元以外，由于 RIRs(regional internet registries ) 的存在，通过主机的 IP 地址等信息还可以得 
到网站所在国家、地区及运营商等信息，给 Web 划分单元提供了更多的可选方案. 

2.3 Web 划分策略 

根据定义2,在系统中含 有况个 Agent 的情况下, Web 划分的前提是找出 Web 全集的一个大小为况的子集 
(Web 划分集合)的集合.采用何种方法将所有 Web 划分单元分类成况个 Web 划分集合，并实现其与 N 个 Agent 
的一一映射,构成了分布式 Web 爬虫的 Web 划分策略. 

下面介绍目前已经提出的几种 Web 划分策略，对其原理和优、缺点进行详细论述. 

(1) 基于随机哈希 

基于随机哈希的方法是采用得最多的 Web 划分方法.最早的分布式爬虫系统大多是建耷在对 URL 或主机 
名哈希的基础之上的.首先，这种方法非常容易计算,用于调度的系统开销 较小; 其次，由于哈希^数的随机性，保 
证了各个 Agent 间负载 均衡; 另外，这种将字符串映射为随机数的方法非常易于与采用 DHT 的 P 2 P 系统集成, 
如 UbiC . rawler [7] (并没有声称自己是 P 2 P 系统，但是最早使用了类 DHT 方法: consistent hashing [16] ), Apoidea [ 13] 等. 

基于哈希的方法遇到的最大问题是，结构简单的哈希值无法体现出主机所具有的4型、地理位置、网络距 
离等信息，也就无法利用这些属性提高分类质量. 

(2) 基于域名后缀及文件类型 

有的爬虫根据主机或网站的域名后缀不同，将 Web 划分单 7 ^分配到不同的 Web 划分集合.比如，根据网站域 
名中诸如 . ne t ,. 0 r g ,. C 0 m,.edu 这些表示组织性质的后缀进行 分类; 还可以根据 URL 字符串中的文件类型 
如 . html ,. mp 3 等进行分类.以上两种分类方法更加注重对网页内容的分类 . SE 4 SEE 提出根据表示语言类型或国 
家、区域的域名后缀，如 . cn ,. j P ,.fr 等进行分类，这样不仅实现了按照网页内容分类，而且由于每种语言群体的地 
理分布基本都不相同，也部分地实现了按地理位置划分，为爬虫就近抓取创造了一定的条件. 

这种方法的优点是, Web 数据在抓取时就已经进行了初步的分类，为以后的数据分析工作奠定了比较好的 
基础.但它仍然存在诸多缺陷 :首先 ，并非每个 URL 或域名都遵守传统的后缀命名规范，如有的学校的域名就 
是 .com 而不是大家普遍认同的 . edu ; 同样，也有很多 . cn ( 中文)后缀的网站其实含有大量英语 内容; 其次，由于各种 
类型的网站的数量或文件的数1分布不均，将造成系统中各个 Agent 的负载不均，比如，按照语言类型分类，小语 
种网站的数量非常少，而拥有诸如 . cn,.de 这类域名后缀的网站数量则非常大. 

跨越较大的地理范围和网络范围是广域网分布式系统天生的优势，可以利用这个优势实现 Agent 对网站的 
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就近抓取,即对每个网站由距离它最近的那个 Agent 来抓取.下面介绍的两种 Web 划分策略都以就近抓取为目 
的，并且均采用主机名作为 Web 划分单元. 

(3) 基于地理位置 

基于地理位置抓取是由就近抓取所想到的最直观的方法，即对每个网站由地理上距离它最近的那个 Agent 
来抓取.比如，部署在法国的 Agent 只抓取法国境内的网站，部署在中国黑龙江省的 Agent 只抓取黑龙江省内的 
网站.这种方法具有-•定的可行性，因为网络数据的传输都要经过物理线路，因此地理距离较远的两点间，数据 
传输时间也相对较长，尤其是跨国和跨大洲的线路 .一 种想法是按照地理位置的层级关系(如大陆、大洲、国家、 
省等)建立分类树，但前提是必须获得每个网站的地理位置信息 .Exposto 等人 [17] 提出通过提取网页中的地理信 
息，再通过计算进行划分操作，从而实现对 URL 的分类. 

仅以地理位置为参考也存在一定的局 限性： 

首先，网络上任意两台主机之间的路由路径长度并不与地理位置远近相符.网络运营商在进行路由选择时 
通常还要考虑到诸多商业因素的影响,从而不遵守地理就近的原则.比如，从哈尔滨工业大学教育网向北京网通 
发送数据时,路由路径甚至会经过广州的路由器.其次，通常网络链路的延迟分为固有延迟和可变延迟，固有延 
迟即信号在线路上传输所消耗的时间，本方法就利用了固有延迟的这一 特点; 可变延迟指数据包在传输沿途所 
经过的网络设备(如交换机、路由器、防火墙等)中消耗的时间，它主要取决于网络设备当时的负载情况，是一个 
不断变化的量.在特定网络环境下，可变延迟可能在总延迟中占有较大的比重.综上考虑,根据地理位置的方法 
对就近抓取的贡献是十分有限的. 

(4) 基于网络位置 

提到网络位置 ，一 个很直观的想法就是利用网站的 IP 地址，因为 IP 地址本身就是一个带有层级关系的描述 
符，很容易建立起树状分类结构.但是 , Af IP 地址分配时的随机性，可能 IP 地址相近的两台主机在网络位置和 
物理位置上并不相近，甚至分布在两个不同的国家.所以 JP 地址并不能代表网络位置，单纯通过 IP 地址进行 
Web 划分并不是理想的选择.另一个想法是利用网络中的自治域 (autonomous system , 简称 AS ), 这是一种由运营 
商或组织建立的 Internet 的子网.通常认为，自治域内的节点间网络互联质量较高.但是与 IP 地址一样，由于自治 
域并非网络距离上的概念，其构建过程综合了人力、物力、财力等诸多因素.所以，在同一个自治域中的节点并 
不能保证其网络距离相对较近.比如，中国的教育网 (China Education and Research Network , 简称 C . ERNET ) 只由 
一个自治域构成，由于全国各地的高校都接入该网，使得这个自治域与中国的国土面积一样庞大,难以保证自治 
域内节点间的高效通信. 

IPMicra [1<) ^ 出利用 RIRs(regional internet registries ) 记录的运营商、子网等 j 言息对 IP 地址进行分类，建立 
一个有层级关系的分类树.由于 RIRs 是非政府组织，没有强制执行的权利,所以它的记录完整性是一个很大的 
问题.在实验中我们发现, RIRs 的记录并不全面并且不能实时更新.利用 RIRs 这种第二4服务的好处是能够获 
得更多的信息指导 Web 划分，并且系统开发者不需要自己去寻找这些 信息; 但是，第三方服务通常提供的是比指 
导 Web 划分更加通用的功能，并且其提供的信息往往是不完备的，因此其达到的效果有一定的限度. 

除了上述方法以外，基于网络位置的 Web 划分还有两个潜在的研究 方向: 网络拓扑和网络距离预测. 

网络拓扑是网络的逻辑模型，通常以图的方式表示.网络中的主机和路由器对应图中的节点，主机和路由器 
之间的链路对应图中的边(有向或无向)，链路上的带宽、延$等参数对应边的权重.完成对网络拓扑图的划分实 
际上也就完成了 Web 划分，并且由于爬虫只关心网络中的 Web 服务器，不关心普通主机，因此相对于划分全网的 
拓扑图，为爬虫系统计算 Web 划分的工作量要小很多，虽然从绝对数量来说仍然很大.在实践上 ，一 般采取 
traceroute 等方法来获取网络 拓扑; 在学术上，还可以通过网络模拟器等方法进行研究，划分方法涉及图的划分和 
聚类等.哈尔滨工业大学开发的大规模网络拓扑结构自动发现系统 [18] 在这方面取得了一定的研究成果. 

网络距离预测是一种建立 •网络 端到端模型的思路.最早进行网络距离预测的是 IDMa P s [19 , 2()] 项目.它采用类 
似三角不等式的方法，通过分布于网络中的若干 Tracer 估算出 Internet 中任意两个 IP 之间的网络距离.但是，这 
种对端到端距离的估算难以完成对全网的建模.于是，网络坐标的概念应运而生.网络坐标研究的目标是将 
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Internet 映射为多维几何空间，为 Internet 上的每个主机分配一个几何空间坐标，使各个主机间的坐标距离尽可 
能地与其实际网络距离相同.最早提出网络坐标概念的是 GNP [21] 项目，后来又涌现出 NPS [22] , PIC [23] , 
LightHouse [24] , Vivaldi (引文)等系统，进一步优化了网络坐标系统的性能、精度和健壮性.对于网络坐标来说 , Web 
划分就是将几何空间中的坐标点划分为多个集合，也是一个聚类的过程.但是，网络坐标方法具有网络拓扑方法 
所不能比拟的优势:(1)建模开销小，生成网络坐标需要的网络通信量远远小于生成网络拓扑时用到的通 信量; 

端到端的网络距离估算速度快,仅需要通过一个基于坐标的计算公式进行少量数学运算，而网络拓扑方法 
需要在图中做一次路径搜索.该方法的缺点是生成坐标时进行的网络测量较少，得到的网络距离值没有网络拓 
扑方法精确. 

2.4 Web 划分实现方法 

一个实际可运行的分布式 Web 爬虫对以上提出的几种 Web 划分策略需要选择 fl 序的实现方法 . Web 划分 
的程序实现可以分为动态划分和静态划分两大类.程序选择哪种实现方法，取决于爬虫系统的设计目标、开发 
方己有资源等因素. 

(1) 静态划分 

所有 Web 划分集合在系统启动前就已经划分完毕，在爬取过程中，当发现新 URL 时,爬虫根据静态配置就 
可以判断出这个 URL 属于哪个划分集合.通常在实现中，系统中所有 Agent 会共用一个静态划分配置文件，这个 
文件要么存储在一个中心节点，要么在各个 Agent 上都#一份一致的拷贝. 

静态划分的优点是容易实现、系统内通信负载较小、抓取效率 较高; 缺点是不能应付如 Agent 意外退出等 
特殊事件，不能进行动态负载均衡扩展性也不强.要实现静态划分的系统通常已经拥有了所要抓取的大部分 
网站的信息，这些信息可能来自于预先探测以及其他爬虫系统的抓取结果. 

(2) 动态划分 

系统通过计算动态决定新发现的 URL 属于哪个 Web 划分集合,这样的系统通常需要一个调度中心节点来 
进行 Web 划分操作.有的系统(如 A P oidea [13] ) 摒弃了中心控制节点，并实现了动态划分.这样的系统在系统架构 
的选择上局限性比较大，通常采用目前比较成熟的 DHT 算法(如 Ch 0 rd [25] 等)实现. 

动态划分的优点是适应性强，能够应付 Agent 的意外退出等特殊情况，并且能够做到动态负载 均衡; 缺点是 
动态划分算法会带来大量系统内网络通信，提高了系统负载.实现动态划分既要实现 Web 划分策略又要兼顾系 
统服务质'量，是一个非常有趣的研究点. 

无论采用何种实现方法, Web 划分的实现都需要由系统中的多个 Agent 共同协作完成，由此引出 Agent 协同 
问题. 

3 Agent 协同 


分布式爬虫内部多 Agent 间的高效协同，是分布式 Web 信息获取中另一个亟待深入研究的关键问题.分布 
式 Web 爬虫 Agent 之间协同的方法和策略称为 Agent 协同模式 . Agent 协同模式的选择对爬虫系统的设计意义 
重大.同时, Agent 交互过程中的通信策略及 URL 交换方案也是非常羞要的研究问题. 

3.1 Agent 协同模式 

目前，分布式 Web 爬虫的 Agent 协同模式主要有4种实现方式 :独立 获取、有调度中心的协同、无调度中 
心的协同及 Agent 自主与调度中心辅助相结合 % 

(1) 独立获取 

系统中的每个 Agent 从各自预先设痒的种子 URL 开始独立地下载网页，并不进行任何协同和 Web 划分. 
这种工作方式实现非常简单，一种可行的方案是在世界各地部署多个 Agent , 每个 Agent (通常是一个机群)独立 
工作，由于各个 Agent 所在区域不|1|，其抓取策略也可以不同，以迎合当地的地域特点.但是，由于 Web 链接结构 
的复杂性，该方法造成不同 Agent 下载相同网页，从而大大增加了网页重复率，浪费了资源.该方案已被一些商业 
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系统所采用. 

(2) 有调度中心的协同 

系统需要通过调度中心为各个 Agent 分配要抓取的 URL.Agent 在抓取过程中发现新的 URL 以后，将新 
URL 交给调度中心，由调度中心选择合适的 Agent, 并将 URL 推送给这个 Agent. 集中式是基于 LAN 的分布式爬 
虫的首选,也是很多基于 WAN 的分布式爬虫的实现方式.调度中心的存在，一方面使得对全系统的精确控制成 
为可能，同时也有利于系统统一的分析 Web 链接之间的关系,为网页重要程度的分析打下 基础; 另一方面，调度 
中心也引发了单机负载瓶颈及单点失效等问题，影响了系统的可扩展性. 

(3) 无调度中心的协同 

该方法摒弃了调度中心,将计算 Web 划分及推送 URL 的功能都赋予了 Agent. 为了保证所有 Agent 的调度 
一致性，目前使用此种协同模式的分布式 Web 爬虫都是基于 DHT 实现 .DHT 无中心的特性使得系统能够在 
Internet 上扩展，但是 DHT 往往存在逻辑网络与真实网络之间的拓扑-致性问题,即哈希值近的两点其实际网 
络距离可能非常远，从而引发低带宽和高延迟等问题，给高效抓取网页带来了困难丄 00 [26] 和 Siiigh [13] # 人提出 
利用一些动态搜集的网络信息弥补系统在这方面的 不足; 在 P 2 P 领域，还有一些研究 [27 , 28] 试图通过建立网络位 
置与 DHT (如 Chord [25] ,CAN p9] 等)之间的映射关系，从根本上解决拓扑一致性问题,但是这些研究并没有在分布 
式爬虫领域得到应用. 

(4) Agent 自主与调度中心辅助相结合 

该方法结合了前两种方法的特点.这种系统中存在调度中心节点，但是与有调度中心的系统相比，调度中心 
的作用仅仅是对 Agent 的工作进行辅助.如同 DNS 系统及 DNS 缓存的原理,调度中心提供原始的 Web 划分知 
识 .Agent 在未获得知识的情况下，将向调度中心询问 URL 的调度方法，同时将这些信息存入自身知识库.随着 
Agent 所处理过的 URL 数量的增多,貪自身知识库的信息量也不断增加，从而可以脱离调度中心，自主计算 Web 
划分.本方法的优点是，与无调度中心系统相比加入了调度指导者，与有调度中心系统相比减少了系统内的通信 
量; 缺点是难以使各个 Agent ^的知识保持一致,可能造成各个 Agent 的 Web 划分结果互相矛盾,因此必须花费 
•定的开销进行 Agent 间同步. 

3.2 Agent 间通信策略 

由于跨分区链接的存在，使得 Agent 必须将不属于自己管辖的 Web 划分集合的 URL 直接或间接(通过调度 
中心再进行一; I 下发操作)地推送到其他合适的 Agent, 从而引发 Agent 间通信.虽然 Agent 之间、 Agent 与调度 
中心(如果有的话)之间不仅仅进行关于跨分区链接的通信，但是这种通信占据了系统内部通信量的大部分，因 
此相关研究都是以跨分区链接交换为中心进行的. 

根据对跨分区链接处理方式的不同， Cho 等人 [6] 将分布式 Web 爬虫的 Agent 间通信策略分为以下 3 种： 

(1) Firewall 方式 

本方法适用于以 Agent 独立获取方式运行的系统.系统中，每个爬虫各自下载自己承担的 Web 划分,爬虫之 
间不互相交换跨分区链接，即如果爬虫发现跨分区链接则直接将其丢弃这种模式下，爬虫之间不会产生跨分 
区链接交换，在 Web 划分集合之间没有交集的情况下也不会出现网责 k 复下载，但是很有可能丢失部分网页.因 
为在抓取过程中，所有的跨分区链接都被丢弃了，而很可能$些网页只有通过这些跨分区链接才能访问得到. 

(2) Cross-Over 方式 

本方法也是一种 Agent 独立获取的实例.系统中的毒个爬虫各自下载自己承担的 Web 划分，当爬虫发现跨 
分区链接时不是丢弃，而是继续沿链接向下抓取.与 Firewall 方式相同，爬虫之间不互相交换跨分区链接.在这种 
模式下，爬虫之间同样不会产生 URL 交换，但是很可能出现网页重复下载.比如, A 爬虫发现了指向网页的跨 
分区链接, B 爬虫也发现了指向网页的分区内链接，那么 A 爬虫和 B 爬虫将都会下载网页灰让人乐观的是， 
这种模式的系统下载的总的不 i 复的网页数要比在 Firewall 模式下下载到的多，因为下载过程中没有一个链接 
被丢弃.但是在这种模式下，最后得到的所有网页在各个爬虫上的分布很可能与最初的 Web 划分大相径庭，给网 
页的去重和分类工作造成了麻烦. 


© 中国科学院软件研究所 


http :// www . jos . org.cn 



许笑等:广域网分布式 Web 爬虫 


1075 


(3) Exchange 方式 

本方法是被广泛接受的主流方法，适用于有调度中心及无调度中心的系统.系统中的每个爬虫各自下载自 
己承担的 Web 划分，当爬虫发现跨分区链接时，将跨分区链接发送给承担这个链接所在 Web 划分的爬虫.发现跨 
分区链接的那个爬虫并不沿着这个链接继续抓取.这种模式与前两种相比，基本不会出现网页重复下载,并且不 
会丢失链接，但是其最大的缺点是实现复杂并且会产生大量的系统内通信.因此在本方式的设计中，既要实现爬 
虫间互相通信，又要控制爬虫间的通信量以减小系统负载. 

3.3 跨分区链接交换量最小化 

C . ho 等人 [6] 还指出，采用 Exchange 模式工作的分布式爬虫可以采用批量交换和去重“著名网页”的方法减小 
Agent 间的跨分区链接交换量.下面结合我们的经验对这两种方法进行介绍.由于跨分区链接实际上就是 URL , 
以下均简称为 URL . 

(1) 批量交换 

Agent 发现跨分区链接后并不是立即将其发送出去，而是等跨分区链接积攒到一定的数量或者到达了一定 
的时间间隔后再批量发送，一次通信发送多个 URL (即跨分区链接)，发送时需要把积攒的 URL 先根据 Web 划分 
分类，不同的分类发送给不同的 Agent . 这里，对于积攒的 URL 的存储方法,可以使用内存存储、磁盘文件存储以 
及内存与磁盘文件相结合的存储. 

批量交换有两个优点:(1)减少总的通信次数.如果把一次 Agent 间通信当作一次会话，那么批量通信产生 
的会话次数要少于非批量通信(即每个 URL 单独通信).⑺由于 URL 需要先在 Agent 本地缓存一段时间，如果 
在这段时间内又发现了相同的链接，则可以直接在缓存中去重，以避免或减少 URL 的重复发送.我们把这个过 
程称为 URL 交换中的“发送方去重” 

发送方去重的作用是有限的，因为其范围仅限于 Agent 缓存的尚未发送的那些 URL (即跨分区链接).如果第 
一次发现的链接 F 已经被发送，那么后来发现的将不会被去重，仍然造成重复发送.由于 URL 发送方的 URL 
缓存大小、发送时间间隔的有限性以及 Web 链接结构的随机性,造成在 Agent 之间交换的 URL 中必然存在大 
量无法避免的重复，这就要求 URL 接收方必须有能力将重复接收到的 URL 去重，这称为 URL 交换中的“接收方 
去重”.接收方去重比起发送方去重更能彻底地去除 URL 重复现象，由此可见,接收方去重是为避免 URL 重复而 
必须实现的功能. 

另外，批量交换在实现中需要考虑是等 URL 积累到 '定数量后才发送，还是 每过- •个固定的时间间隔才发 
送.前者每次可以发送较多的 URL , 但是如果长时间凑不齐规定的 URL 数量会导致长时间无法进行 URL 交换; 
后者由于没考虑到 URL 数量，所以有可能一次只发送很少的 URL , 多浪费了带宽，还奇能一次发送太多的 URL ， 
造成瞬间网络负载过大.较好的办法是两者同时使用，即等 URL 积累到一定数才发送，但是如果到达了固 
定的间隔时间还没有凑齐规定的 URL 数量，就将现有的 URL 全部发送.或者反过来，即每过一个固定的时间间 
隔才发送，但是如果间隔时间到来之前 URL 数量就已经达到上限，则不_时间到来直接发送.数量和时间这两 
个参数必须根据系统规模、吞吐能力、网络坏境等情况进行调优. 

(2) 去重“著名网页” 

指向特定网页的链接称为该网页的“进入链接 (incoming links )”. 研究表明, Web 上的进入链接的数量符合 
Zipf 分布，即只有少数网页拥有大量的进入链接，而大部分网页的进入链接数很少，也就是引用量很小.这里，我 
们把进入链接多的网页称为“著名网页”.如果能够对“著名网页”的 URL 进行较好的去重,则能在一定程度上减 
少 Agent 间的 URL 交换量，因为大量 URL (跨分区链接)都是指向这些“著名网页”的. 

“著名网页”可以根据网站知名度采用手工配置的方法，但是手工方法很可能漏掉许多网页,所以可以要求 
Agent 在工作过程中实时地发现“著名网页”.一种实现方 案是: 在每个 Agent 上都建立一个独立的“己发送 URL 
缓存”，用来缓存在以前一段时间内发送过的跨分区链接.在这个缓存上，可以按照发现次数将所有 URL 进行排 
队，发现次数最多的 URL (比如达到某个上限值)，将被视为是指向“著名网页”的 URL , 从而可以考虑用特殊的方 
式对这个 URL 进行去重.在具体实现中，可以将 URL 在缓存中的寿命与 URL 的发现次数挂钩.这样, URL 越“著 
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名”，它在缓存中存在的时间就越长.爬虫每发现一个跨分区链接，就把链接拿到“已发送 URL 缓存”进行匹配，如 
果能够匹配则不发送，这样就可以保证“著名网页 ’’URL 的较少发送.由于爬虫每隔一定时间就会将已抓取的全 
部网页再次抓取一遍(即内容更新)，所以还有一种方法是利用前一次或几次抓取时的记录总结出“著名网页”， 
并用于指导下一轮抓取. 

4 Agent 部署 


Agent 部署是广域网分布式爬虫系统的底层问题，本节针对真实系统的部署方案展开论述. 

4.1 使用可控平台和专用网络 


广域网分布式爬虫系统可以架设于科研机构和企业自己所拥有的可控平台之这样的企业级基础设施 
通常拥有较高的节点间互联速度，各个节点的使用情况较为可控，节点的加入和退出4有全局登记和通知，由专 
人负责.这些特性使得爬虫程序在设计时可以采用相对简单的策略,比如采用静态划分、采用有调度中心的 
Agent 协同等. 

为了提高系统性能，可以通过专用网络而不是 Internet 对分布在各处的 Agent 进行互联.很多科幻作品中常 
有这样的情 节:在 宇宙中航行的飞船可以通过一种“超空间速地从宇宙的 A 位置跳跃到 B 位置，跳跃所消耗 
的时间远远小于航行 A 位置与 B 位置之间直线距离所用的时间.这种“快速通道”在物理世界中还难以实现，但 
是在 Internet 上却是确确实实存在的现象.使用专用网络，理论上就可以实现这样的“超空间”.专用网络虽然跨 
越了较大的物理距离，但是网络通信效率很高/由矛专用网络中节点比较少，因此也不会出现像 Internet 那样的 
网络拥塞.如果把这一特性加以利用，比如 Agent 下载网页使用 Internet , 而 Agent 间通信以及其他数据传输使用 
专用网络，则会大大提高系统效率. 

我们曾经利用 CNCERT 的专用网络测量了北京与广州之间的网络延迟，结果如图2所示.该专用网络上的 


节点之间可以通过专用网络互联(使用私网 IP ), 也可以通过 Internet 互联(使用公网 IP ). 对比图上方的一组延迟 
值是使用私网 IP 在专用网络上得的，下方的一组延迟值是使用公网 IP 在 Internet 上获得的.实验结果显示， 
Internet 上的延迟值几乎达到了专用网络延迟值的10倍. 




0 50 100 150 200 250 300 350 

Delay (ms) 


Fig .2 Special purpose network vs . Internet on Beijing-Guangzhou network delay 
图 2 北京到广州之间专用网络延迟与 Internet 延迟对比图 


可控平台和专用网络带来的最大缺点是维护开销较大.对于广域网分布式系统，更是需要企业同时在多个 
物理位置维护多组这样的可控平台.因此 ，一 些小规模的公司和研究团体只能寻求更加节省开销的解决方案.另 
一个缺点是部署环境受限 :首先 ，如何找到空间安放设备是一个复杂的 问题; 其次，由于当地网络结构的限制，可 
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控平台的网络接入点环境很难达到预期的效果.在实践中，我们甚至遇到过数据包在一座大楼中跨越多个网络 
自治域又返回原自治域的情况.很多情况下，这类问题不是技术所能解决的. 

4.2 利用普通网络用户的资源 

利用互联网用户的闲散资源是分布式计算的重要目标，同样也可以应用到广域网分布式爬虫系统中.类似 
于已经非常成熟的 P 2 P 文件共享应用，一些系统的部署环境不是基于专用平台，而是私人拥有的个人电脑.网络 
用户从特定网站下载安装程序并安装后,即可将其个人电脑变成爬虫系统中的一个 Agent , 参与到整个爬虫系 
统的工作中来.由于每个用户都拥有自己独享的网络带宽,加入的 Agent 越多,系统的总带宽就越大，理论上可以 
无限扩展. 

一个特别的例子是 Faroo (； http :// www . faroo . com /), 它提出了更加新颖的爬虫实现方案.在该系统中，安装在 
用户个人电脑中的爬虫程序的日常工作并非抓取网页，而是监听用户的浏览器动作，将用户在其浏览器上浏览 
过的网页存储下来进行处理.这种实现方法大大降低了系统给 Internet 带来的网络负载,免去了 Web 划分的工 
作，但是也使得用户的搜索范围只能集中在“所有 Faroe 用户所浏览过的网页”这样一个有限的集合中.之后，相 
应的 Rank 工作也是根据 Faroo 用户对网页的点击量确定的. 

这种利用 Internet 草根资源的系统为 Web 爬虫的发展开辟了一条新的道路，但是仍然面临一些严重的 问题: 

(1) 难以吸引网络用户加入系统 

不同于文件共享系统，爬虫系统并不能带给加入者直接的好处.另外，由于大部分互联网用户上网需要缴 
费，运行爬虫这种带宽占用较多的程序反而会给加入者带来经济上的额外开销.因此，各种系统采用五花八门的 
方式提供鼓励机制.比如, Faroo 为加入者反馈公司利润; Majestic ( http :// www . majesticl 2. co . uk /) 设立全球加入者 
贡献 排名; YaCy (； http : // yacy . net /) 只允许加入者享有查询索引的权利，并提供个性化定制 搜索; 甚至有人提出把贡 
献带宽和计算资源作为一种“义务劳动等.但是到目前为止，还没有哪个系统发展到大型商业搜索引擎的 
规模. 

(2) 部署环境不可控，程屬设计复杂 

因为系统通常面临 Agent 频繁加入/退出的情况,所以必须保证系统的健壮性和容错 能力; 对于无调度中心 
的系统，还要尽 M 避免 i 盖网断裂为多个独立子网的问题.来自网络黑客的攻击也是一个需要考虑的方面.另 
外,系统设计在面临复杂性问题的同时，还要不断地权衡容错能力与工作效率的矛盾.由于爬虫所执行的任务并 
没有一个精确的描述，对数据总体的完整性要求不高，一个可行的办法是在保证抓取覆盖率的前提^适当地降 
低容错能力，允许一定量数据的丢失. 

5 评价模型 

C.ho 等人 [6] 在其综述中已经详细给出了诸如重复率、覆盖率、网页质量^传统的爬虫评价标准.但是由于 
广域网分布式爬虫与传统爬虫系统相比具有很多独特的属性，因此仅凭借传统标准并不能完整地描述出新系 
统的性能.本文结合己有的研究工作给出如下几种针对广域网分布式爬虫系统的评价 标准： 

5.1 节点-资源距离 

组成广域网分布式爬虫系统的各个节点(即爬虫)分布于 Internet 的若干位置.如果部署在不同位置的爬虫 
都能负责抓取距离自己相对较近的网站，那么将会大幅缩短，下载 Web 数据所需要的 时间; 同时，如第 1.3 节所述, 
这种就近获取的方案还能降低系统对 Internet 施加的负载.就近获取主要通过 Web 划分方法实现. 

设系统中含有的 Agent 的集合加{(^，(^，(^，...，(^，目标网站的集合^^{叫也两，...,®^}，经过某种 Web 划 
分后， Agent «; 负责获取网站定义 a ; 与 Wj 之间的“距离”为节点-资源距离 ( peer-resource distance , 简称 PRD ), 标 
记为全系统中，节点-资源距离的数量与目标网站的数量同为 M . 全系统的就近获取能力可以通过 M 个 
节点-资源距离的分布或节点-资源距离的算术平均值体现.系统实现中，“距离”常常代表地理距离、网络延迟或 
下载速率等信息.例如，文献 [26] 中采用网络延迟 (round trip time , 简称 RTT ) 作为节点-资源距离的度量，并通过分 
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Fig .3 Evaluations of the peer-resource distances 

图 3 节点-资源距离评价方法 
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5.2 总通 1 目星 


如前所述，目前对总通信量的研究都是面向 Agent 间跨分区链接交换的.当然，系统还存在全局控制信息、 
Agent 间同步、消息路由、容错消息等也需要在网络上传输,但是大部分对待这些通信的思路都是尽量减少和 
避免，没有评价标准. 

分布式爬虫之间可能需要交换信息以进行协同工作,比如在 Exchange 方式下工作的爬虫需要按一的时 
间间隔进行跨分区链接交换.为了评价这种信息交换的通信量，文献 [6] 中定义总通信暈 (comimmication 
overhead ) 为每下载一个网页所需交换的跨分区链接 (未 去重)的平均数量.设£■是在抓取过程中 Agent 之间交换 
的跨分区链接所引发的通信数量，是总共抓取到的网页数，则总通信量为 

Communication Overhead = E/N (1) 

如果•个分布式爬虫总共下载了 1 000个网页，并且在下载过程中各个爬虫之间总共交换了 3 000个跨分 
区链接，那么总通信量=3000/1000=3.在 Exchange 方式下工作的分布式爬虫应该尽量减小总通信量;而在非 
Exchange 方式下工作的分布式爬虫由于爬虫之间不交换跨分区链接，因此总通信量为0.文献 [26] 在不同的系统 
规模下测量了多种基于 DHT 的 Web 划分策略的总通信量(如图4所条，引自文献 [26] 的 Fig .5) .由于文献 [26] 中 
的系统采用了 DHT 方法，因此爬虫-爬虫之间的通信并不是直接一步到达，而是要通过一个在 DHT 覆盖网上的 
路由过程. 

关于总通信量, UbiCra W l er [7] 提出了一个非 f 有意义的理论 :设每 个网页平均有 A 个链向其他网站的链接(当 
然，这是平均值)， Agent 抓取《个网页就会产生个需要交换的 URL . 由于 In 个 URL 不一定全部需要在网络上 
传递,即不都是跨分区链接，有的可能在 Agent 本地处理，所以需要给 如加一 个系数.这个系数可以由 Agent 的承 
载能力决定•定义每个 Agent 的任务承担能力 ( capacity )( 比如负责的主机数)为 C a , 从而对一个 Agent 有如下不等 
式成立： 

An ^a*a C « <An (2) 
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析节点-资源距离的分布评价多种 Web 划分策略的优劣(如图3左图(即文献 [26] 中的 Figure 12) 所示).文献 [10] 
则采用网页的下载速率作为度量，评估的是基于地理位置的 Web 划分(如图3右图(即文献 [10] 中的 Fig .5) 所示). 

总体而言，最直观的“距离”就是下载速率，这也是系统最直接的目标之一.但是，这个数值是一个后验知识, 
只有在真正对网站进行抓取时才能测量得到.在先验知识中，最易于获得的是网络延迟(或 RTT ), 它可以通过 
ping , http - ping ( http :// www . coretechnologies . com / products / http - ping /) 等简单方法来获得•但是，网络延迟处于不断 
的变化中，需要长期测量才能获得稳定的数值.在研究中,采用网络延迟作为“距离”度量的方法更易于在模拟器 
上进行实验.也有一些网络延迟数据集，如 p 2 psim ( http :// pdos . csail . mit . edu / p 2 psim /) 的 King ( http :// pdos . csail . mit . 
edu / p 2 p sim / kingdata /) 数据集等可供使用. 
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其中， a 表示系统中任意存活的 Agent ， 5表示抓取了这 n 个网页的那个 Agent . 系数实际上代表需要在网络上传 
递的跨分区链接在如个 URL 中所占的百分比.由上式可以看出，需要通过网络交换的跨分区链接数量上限与 
Agent 数量是相互独立的，这个数量仅依赖于 Agent 下载的网页数和网页中包含的链接数.这就意味着，虽然从 
经验上来看, Agent 数量越多，引发的网络负载越重，但实际上，网络负载加重的真实原因是因为系统下载的网页 
数量的增加，而不是 Agent 数量的增加.所以，单纯 Agent 数目庞大并不能造成系统瓶颈. 


^ 霸、 I― URL ■ 

J 300 — x Hostname " 

| 200 1 〆 _ • — Hostname-8 : 

o I 。。 t,x- Q Redirect - 

艺 0U -1-1-1-1-1-1-1- 

0 10 20 30 40 50 60、70 80 

Number of crawler nodes 

Fig.4 Evaluation of the communication overhead 

图 4 总通信量的评价方法 

5.3 可扩展性 

对于分布式爬虫的可扩展性评价方法，学术界一直没有一致的意见，且提出的评价方法也非常稀少.较有代 
表性的是 UbiCrawler 提出的在系统规模不同(如 Agent 数量不同，或者每个 Agent 上的线程数不同 ：) 的情况下， 
使用比较每线程每秒下载的网页数的方法评价可扩展性.设系统中含有的 Agent 的集合 A ={ a u a 2 , a 3 ,..., a N }M 
个 Agent 上的线程数分别为 t h t 2 , t 3 , …, t N ，每个 Agent 的网页下载速率分别为 vwMnVAr， 则系统的可扩展性 
(scalability) 可用以下公式来衡量： 

N 

Scalability= —— (3) 
\A\ 

另一种线程级的定义为 


Scalability= 


N 

Li-Vi 


以上公式揭示出作为一个可扩展性高的系统，应该保证每个线程的工作不会受到线程数增加的影响，即随 
着系统规模的扩大和通信量的增加，每个线程的性能不会减弱.文献 [13] 根据公式 (3) 给出可扩展性的评价(如图 
5的左图(即文献 [13] 中的 Fig .6) 所 示); 文献 [7] 分别根据公式 (3) 和公式 (4) 进行了评价(分别如图5的中图和右图 
(即文献 [7] 中的 Hgure 3) 所示)，但是线程级的评价是针对单机而非全系统. 
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图 5 可扩展性的评价方法 
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目前的定义完全从程序吞吐量角度评价可扩展性，给出了对不同规模系统进行比较的办法，但是并没有考 
虑到前面叙述的非技术层面的因素，因此还有待于进一步完善. 

6总结及未来研究 

我们对全文各节进行总结，并针对各个问题提出未来研究中应该给予更多关注的研究点.表1总结了几种 
较为典型的广域网分布式 Web 爬虫的实现方法，以供读者参考. 


Table 1 A summary of typical WAN-based distributed Web crawlers 
表 1 几个典型广域网分布式 Web 爬虫的总结 



Web 

partition 

unit 

Web 

partition 

strategy 

Web 

partition 

implementation 

Agent 

collaboration 

mode 

Agent 

communication 

strategy 

Agent 

deployment 

UbiCrawler 

Host 

Consistent hashing 

Dynamic 

No central 
coordinator 

Exchange 

Controlled research 
platform 

YaCy 

N/A 

N/A 

N/A 

No central 
coordinator 

N/A 

Resources contributed 
by Internet users 

Faroo 

Not 

needed 

Not needed 

Not needed 

No agent 
collaboration 

Not needed 

Resources contributed 
by Internet users 

Majestic 

URL 

N/A 

N/A 

No agent 
collaboration 

Firewall 

Resources contributed 
by Internet users 

IPMicra 

Host 

Network position from RIRs 

Static 

Need central 
coordinator 

N/A 

Controlled research 
platform 

SE4SEE 

Host 

Domain name 

Static 

No agent 
collaboration 

Firewall 

Controlled grid 
infrastructure 

Apoidea 

Host 

DHT based random hash & 
network proximity 

Dynamic 

No central 
coordinator 

Exchange 

Controlled research 
platform 

IglooG 

URL 

Random hash 

Dynamic 

Need central 
coordinator 

Exchange 

Controlled research 
platform 


(1) Web 划分 

为系统中各个 Agent 高效而合理地分配 URL 是 Web 划分所要解决的主要问题.确定 Web 划分方法的过程 
包括选取 Web 划分单元、选取 Web 划分策略以及选取 Web 划分实现方法.对于不同的系统实现目标，可以采取 
不同的组合.对 Web 的动态划分是一个非常有意义的研究 方向; 如何利用网络拓扑和网络坐标的研究成果为广 
域网分布式爬虫服务以实现就近抓取,将是一个创新性的研究点. 

(2) Agent 协同 

Agent 间如何进行互联和通信以实现多 Agent 之间的高效协作，是 Agent 协所要解决的主要问题.要实现 
跨广域网的 Agent 协同，需要精心设计 Agent 协同模式和 Agent 间通信策略，并尽量减小 Agent 间的通信量.在 
未来的研究中, Agent 自主与调度中心辅助相结合的方式仍有知识描述、 Agent 知识库间同步等问题需要 解决; 
对无调度中心协同的研究需要与 P 2 P 算法相结合，并设法解决逻辑网络与物理网络的拓扑一致性问题 .DHT 与 
网络坐标相结合可能是一个理想的选择. 

(3) Agent 部署 

Agent 部署更加注重工程方面的问题，系统构建者可以采用可控平台和专用网络资源搭建系统底层，也可 
以寻求利用普通网络用户资源的方法.研究可以关注不可控部^环境下爬虫系统的健壮性和容错能力等问题. 

(4) 评价标准 

目前为止,没有一个系统采用了完全相同的评价标准，并且对于容错能力等还没有具体的评价方法. 

致谢在此，我们向对本文的工作给予建议和帮助的老师和同学表示感谢. 
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基于特杈提升的多维量化属性弱点分类法的研究 

张永铮，云晓春，胡铭曾 

( 哈尔滨工业大学卄算机网络与信息安全技术研究中心，黑龙江哈尔滨 150001) 

摘 要： 在分析国际上典型的弱点分类方法的基础上，提出了一种基于特杈提升的多维量化属性 
的弱点分类法，并以三个弱点为例，分析了该弱点分类法的特点，给出了弱点的风险评估算式以 
及风险评估級的划分。 
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Research on privilege-escalating based vulnerability 
taxonomy with multidimensional quantitative attribute 

ZHANG Yong - zheng，YUN Xiao - chun , HU Miiig-zeng 

(Research Center of Computer Network and Information Security Technology, Harbin Institute of Technology, Harbin 150001 ， China) 


Abstract: On the basis of analyzing of research achievements of typical vulnerability taxonomies in the 
world，a privilege-escalating based vulneiability taxonomy with multidimensional quantitative attribute 
is presented in this paper. Then we give examples of three vulnerabilities to illustrate the characteristics 
of this taxonomy, and present the risk evaluation formula and ranks of the evaluation level of risk. 

Key words: network security; computer vulnerability; vulnerability taxonomy; privilege escalation; risk 
evaluation 


l 引言 


在 Internet 高速发展的今天，黑客攻击越来越受到全社会的广泛关注，黑客经常利用计 
算机软件或配置上存在的弱点，进行无授杈访问、特杈提升、 DoS 攻击等，严重地危害了系 
统安全。弱点分类法是弱点研究中的一个重要课题，系统地研究弱点分类法对深入理解已知 
弱点的产生缘由、进一步的预防以及新弱点的发现具有一定的指导意义，同时，为警示软件 
开发者及使用者避免同样的错误再次发生提供了帮助。目前，弱点分类法主要应用于计算机 
系统的安全评估、入侵检測以及软件工程等 领域。 近十年来，很多研究机构和研究人员都开 
展了这方面的工作，国际上比较有成效的工 作有： Aslam 和 Krsul 的弱点分类法 [ u ] 、 Bishop 
的6轴分类法[ 3 】、 Knight 的四类型分类法以及 Jiwnani 在前人基站上完善的分类法[ 5 】，而国 
内的主要工作是整合并扩展了以上分类法 


收稿 日期： 2004-02-10 

基金 项目： 国防“十五”预研基金资助項目 （ 413150701) 




.108 . 


通信学报 


2004 4 


然而，目前的分类方法普遍都存在着以下缺点： （1) 缺少量化支持或量化粗糙，无法在更 
细的层次上区分弱点的轻重緩急，使用户对弱点造成的危害很 模糊； （2) 无法体现各神弱点之 
间的访问杈限提升关系，缺乏对用户的警示作用，表面上较轻但实际上可能由一系列特杈提 
升而带来严重后果的一些弱点往往易被 忽视； （3) 无法表达弱点被成功利用的难易程度，而实 
际上，攻击方法越简单，那么弱点被攻击者成功利用的可能性就越大。 

而上述的缺点都是在实际的安全领域中所期望改进的，文献 [7] 引入特杈提升的思想，给 
出一种量化弱点分类法的基本框架，旨在从根本上解决上述缺点。本文在引用文献 [7] 中部分 
概念的基础上对该分类方法加以改进，提出了一种基于特杈提升的多维量化属性的弱点分类 
法，并举例说明了该弱点分类法在安全风险评估领域中的应用。 

2弱点的新分类特征的提取 

就待分类的对象而言，从对象中抽取适当的分类特征是成功分类的基础因此，要想 
改进和完善已有弱点分类法，对弱点的新分类特征的提取显得尤为重要。 

2.1 特杈提升 

通过对目前 Internet 上比较普遍的攻击手法和大量计算机弱点信息的深入分析，我们发 
现众多计算机弱点具有这样的 特征： 属于某低用户級 L 的攻击者往往通过成功地利用某个 
(些）弱点，获得一定的特杈提升，从而在非授杈的情况下达到了 一个高用户級 H 的目的， 
显然，攻击者的这种 L — H 用户級的非法提升严重地危害计算机系统的安全性。 

在攻击过程中，攻击者常常扮演着一定的用户角色并拥有相应的用户特杈集。从一般的 
访问者到普通用户，再到系统管理员，攻击者身份角色的变化，实际上反映出攻击者对目标 
系统拥有的资源量的变化，即杈限的变化。因此，基于上述的实践经验，并借鉴操作系统实 
现中的不同用户角色具有不同程度特杈的思想，本文引入了 “特杈集”属性的新颖的分类特 
征。定义1和2分别给出了特杈、特杈集和特杈提升的概念 [7] 。 

定义1 一个特杈 （ privilege ) 是一个 （ x , m ) 对，其中 x 是一个客体， m 是主体对客体 
x 的一个非空的访问模式集合，对 m 的修改必须获得合法授杈。 Pset 是一个特杈集合 （ P )， 
即 Pset ={ ( x /, mi ) | ( x /， mi ) 是一个特杈，其中 i = l ，2 ，■ n } • 

定义2如果拥有特杈集 Pset 的用户 Name 利用某个弱点获得了新的特杈集 Pset ’ ，且存 
在某个客体 X’ 和非空的访问模式集 m ’ ，使 ( x ’， m’)e Pset ’ 但 ( x ’， m’)g Pset ， 则称 Name 获得了 
特杈提升。 

对攻击者来说，他利用目标系统中的弱点实施攻击的目的是为了获得更多的特杈，而从 
弱点攻击属性来看，弱点只有给某类攻击者带来更多的特杈才有意义。 

2.2 用户和特杈集的关系 

对系统中某个特定的主体（用户或代表他运行的进程）而言，他所具有的对系统中所有 
可访问客体的访问杈限是一个特杈集合，因此这些主体可以被看作是一个命名的特杈集合， 

我们用一个 （ name ， Pname ) 对来表达主体与特杈集-对应关系，其中 name 是一个用户名， 

Pname 是 name 对应的特杈集合。对系统中特定的用户 name 来说，他所具有的缺省的特杈集 
是确定的，即在合法访问的情況■下， ( name , Pname ) 对是确定的。 

2.3 特杈集的划分及量化 

在文献 [9] 中， Longstaff 提出了对系统的访问者进行分类，他用决策树的方法将访问者分 
为： Remote using a common service ， Trusted system ， User account > Physical access ， Privileged 
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access 五类。 在本文中，我们借鉴了这种 
按访问者分类的方法，并从另一个角度将 
访问者和特杈集结合起来，将系统所有可 
能的用户特杈集按用户的身份角色分类， 

同样采取决策树方法进行分类，分类决策 
树如图1所示。 

在图1中，当前用户是个广义的概念， 

它包括所有和目标系统有关的用户，如系 
统各种用户、信任的远程访问者和不信任 
的远程访问者等。系统的普通用户是指除 
系统管理员以外的任意系统用户账号。 

采用决策树进行分类的优 点是： 

使分类避免二义性，具有互斥性。用决 
策树分类时，要从根节点“开始”处自上而 
下有顺序地进行判断分类，具有二义性的用 
户被分到顺序靠前的一类用户中，这样可以 
避免二义性，达到分类互斥性的目的。 

使分类具有完整性。一个用户从决策 
树的根出发，最终必定到达一个叶节点， 

所以任何一个用户都能被分到相应的用户 
角色类中。这里需要强调的是， CPother 类 
实际上是实现完整性的补充，事实上最后 
一个判断在有意义的情况下是永真的，即只要系统处于正常活动状态且攻击者和目标系统之间 
可以交互数据的情况下，此判断是真的，否则系统不存在、死掉或无法交互数据，这些对我们 
的工作都没有 意义。 因此在有意义的前提下，其它八个类应该能够包含了所有角色的用户特杈 
集， CPother 类应该为空，这也是我们所期望的。 

用户角色分类决策树给出了特杈集分类的准则。由于用户角色的重要程度的不同，所以 
他们拥有的特杈的重要性也不同，我们要将这些特杈集的重要程度施以量化，以表现出他们 
的轻重缓急，如表1所示，其中，特杈集类是由上述的分类准则划分出的类别，角色描述是 


指特杈集类对应的用户角色，杈值是0〜1 . 0的小数。 

表1 特杈集类的杈值表 

~特权集类 角色描述 

CProot 系统管理员，管理系统设备-系统文件和系统进程等_切资源 r 0~ 

CPsubroot 该类用户具有系统管理员部分权限 0.8 

CPoustr 任意多个系统普通用户.有更多独立私有的 f 源 0.6 

CPsubouser 该类用户具有任意一个系洗普通用户的杈限和任意一个或多个其它普通用户的部分权限 0.5 

CPuser 任意一个系统普通用户，由系统初始化产生或系统管理灵创建.有自己独立私有的 f 源 0.4 

CPsubuser 该类用户具有 任意一 个系统普通用户的部分权限 0.：! 

CPaccess 可以访问网络服务的远程访问者.通常是信任的访问者.能和网络服务进程交互数据，可以 0.1 

扫描系统信息等 

CPphyaccess 在物理层和目标系统连通的远程访问者.通常是不受信任的或被防火墙簡离在外的访问者 0.0 






而量值标准的制定，我们遵循以下两点原则： （1) 由上面的分类准则可知，部分特杈集 
类之间存在一定的偏序关系： CProot > CPouser > CPsiibouser > CPuser > CPaccess > CPphyaccess > 
所以特杈集类的量值要满足上述 关系； （2) 我们认为标准的制定是应用弱点分类法用户自身利 
益的一种体现，不同的用户可能期望不同的标准。因此，在满足 (1) 的基础上，给出了符合自 
身期望的量值，希望从实际应用中得到反馈，不断地进行 完善。 

3多维量化属性的弱点分类法 

对弱点的精确描述是一件很困难的事情，研究人员们通常采用的最简单而有效的方法就 
是给弱点增加新的属性，而为弱点的每个属性賦值的过程，实际上就是给弱点在该维属性上 
分类的过程。本文给出六种量化属性和十种描述性属性。 

3.1 弱点的特杈集属性及量化 

从特杈提升的概念，我们可以看出攻击者利用弱点的过程就是其特杈集扩大的过程，于 
是一个弱点对应两个特杈集，我们称其为前提特杈集 （ Ppre ) 和后果特杈集 （ Peon )。 

前提特杈集表示攻击者试图利用一个弱点所需具备的必不可少的杈限的集合。只有攻击 
者满足 Ppre 时，才有可能成功地利用此弱点。前提特杈集的提取旨在，当该弱点无后继可利 
用的弱点时，结合弱点的版本信息，可以静态的判断出此弱点的存在，而不必执行真实的攻 
击动作。这种方法的缺点是降低了对弱点判定的准确性，我们在实践中可以灵活地配置动作 
的实施，采用折衷的策略，取长朴短。然而，在该弱点存在后继弱点的情况下，必须执行真 
实的攻击动作，以便利用该弱点带来的特杈提升去继续攻击后继弱点。 

结果特杈集表示通过成功利用此弱点而产生的直接特杈提升后的特 杈集。 结果特杈集表 
征出该弱点在特杈层面上的危害程度。其中，需要强调的是“直接特杈提升后的特杈集”，而 
不是若千相互关联弱点产生的一系列特杈提升后的特杈集，为此，设计前提特杈集和结果特 
杈集这两个属性也是为描述一系列特杈提升过程提供支持。 

弱点在前提和结果特杈集两维属性上的分类准则参见图1,各属性的量值参照表1。 

3.2 弱点的安全属性及量化 

为了表达弱点在特杈提升过程中对系统的机密性 C 、 完整性 I 和可用性 A 等安全属性产 
生的影响，在每級特杈集类上引入 C 、 I 、 A 三维属性。这方面的工作，我们参考了文献 [7] 
中对安全三属性的分級量化描述，并在此基础上进行一些修改。表2给出了弱点的多维影响 
的分级，其中采用弱点的前提与后果特杈集的杈值增量为每个安全属性賦值。 


表2 弱点的多维影响的分級 


分級 

特杈集类 

机密性 c 

完整性 I 

可用性 A 

1 

CPphyaccess 

证实主机有效性 




CPacccss 

证实 OS 类型、版本号及应用程 

序、版本号 


在对等攻击条件下，某服务、 

进程或系统的负载增加或性 

能降低 

3 

CP subuser 

读取某普通用户某些特定普通 

文件或非敏感内存空间的数据 

用垃圾或安全有效我核追加、修改、 

刪除或创建某普通用户拥有的某些 

文件或进程空间的内容 

某普通用户的某些数据文件 

或进程内存数据结构被後 

盖、修改或刪除而导致崩溃 

或不可用 
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续表 

分級 

特杈集类 

机密性 c 

完整性 I 

可用性 A 

4 

CPuser 

读取某普通用户所有普通文件 

植入用户級的 木马； 用垃圾或安全 

某普通用户的数据文件或普 



或非敏感内存空间的数椐 

有效我核追加、修改、硎除或创建 

通进程内存数据结构被覆 




某普通用户的所有文件或进程空间 

盖、修改或刪除而导致该用 




的内容 

户崩清或不可用 

5 

CPsubouser 

读取多个普通用户的某些特定 

可用垃圾或安全有效我核追加、修 

多个普通用户的某些数据文 



文件或内存空间数据的内容 

改、刪除或创建多个普通用户的某 

件或进程内存空间数据结构 




些特定文件内容或进程内存空间的 

被覆盖、修改或刑除而导致 




数据结构 

崩清或不可用 

6 

CPouser 

读取多个普通用户的所有文件 

可用垃圾或安全有效我核追加、修 

多个普通用户数据文件或普 



或内存空间数据的内容 

改、刪除或创建多个普通用户的所 

通进程内存空间数椐结构被 




有文件的内容或进程的内存空间的 

遭盖、修改或刑除而导致崩 




数据结构 

清或不可用 

7 

CPsubroot 

读取某些系统文件（如 / etc / 

可用安全有效载核追加、修改、刑 

使某些系统文件或系统组件 



passwd ' / etc / shadow ) 或内核及 

除或创建某些系统文件的内容或 

或进程不 可用； 系统被桂起、 



系统进程空间的内容 

root 进程内存空间的数据结构 

被重起或被当机 

8 

CProot 

读取任意文件的内容，监视系 

植入 root 級木马，可追加、修改或 

系统不可恢复性崩清 



统或网络活动 

创建任意文件的内容 



3.3 弱点的攻击复杂性及量化 

一个弱点对系统的安全性的影响与其攻击复杂性有关，在一个弱点对攻击者来说存在提 
升特杈可能性的前提下，对此弱点的利用越容易，則使用此弱点来破坏系统安全性的攻击者 
就越多，因而此弱点对系统安全性的负面影响也就越大。为此，引入攻击复杂性 [7] ,具体划 
分如表3所示。 

3.4 弱点的其他属性 

在我们的分类法中，还设置了弱点的操作系统、涉及的对象等其他属性，尽管对这些属 
性实施量化没有意义，但这些属性的引入对描述弱点不同侧面的信息具有一定的积极作用， 
表4给出了弱点的描述性属性。 


表 3 弱点攻击复杂性的分級 


分級 

杈值 

特征描迷 

E 7 

1.0 

现成可用的攻击工具与详细的攻击步骤 

E 6 

0.8 

定制可用的攻击工具与较详细的攻击步骤 

E 5 

06 

无现成攻击工具但有较详细的攻击步骤 

E 4 

0.5 

公升报告 1 粗略描述攻击方法 

E 3 

0.2 

公开报告并提及可能的攻击方法 

E 2 

0 1 

公升报告但未给出攻击方法 


E1 


0 05 


公升报告但攻击仅在理论上可能或未公升报告的弱点 









弱点的描述性属性 

属性 功能描述 

BID 弱点标识号，我们采用 Security Bugware 组织公布的弱点标识 BID 作为我们的 ID 

CVE 与此弱点相对应的 CVE 标识号 • 该項提供了与各个知名弱点库的映射关系 

OSversion 操作系统版本及硬件平台 

Object 涉及的对象及版本，主要包括系统模坱以及应用程序 

Description 弱点原理的简单描迷，其中一般包括弱点名称如何被利用以及造成的危害后果等 

Attack 对弱点的攻击动作、攻击过程或可利用的攻击工具 

弱点产生的原因，引用国际上经常采用的 Aslam 分类法并加以 完善； 指出弱点产生的原因，旨在为提醒和帮 

Cause 

助软件升发者及使用者避免同样的错谈再次发生提供了依椐 
SA 即 security advisement ，表示消除此弱点的安 全建议 

Published 弱点被公布的时间，采用 B mm dd , yy " 的时间格式 
Source “ remote ” 表示远程利用 • “ local ” 表示本地利用 • “ unknown ” 表示不确定 

4 安全评估应用 
4.1 安全评估的示例分析 

我们以 Security Bugware 公布的计算机弱点 ( BID )283 、496和3505为例，以便形象地表 
现出基于特杈提升的多维量化分类法的特点。这三个弱点的简介 如下： 

(1) 标识： 3505 > 名称 ： Linux Syn Filter Evasion Vulnerability ， 简介：在一些 Linux 系统 
中，当进程在 syn - flood 保护模式下接受连接请求时，带 syn 标志的 TCP 包的过滤规则会出 
现问题，若攻击者猜出一个合法的 syn cookie 响应，就可以穿透防火墙，从而访问内部的部 
分服务，而且这个漏洞在 Linux kernel 2.0 〜 2.4. 13的各个版本中普遍 存在。 

(2) 标识： 283，名称 ： Washington pop 2 d Buffer Overflow Vulnerability ， 简介：由于 pop 2 
支持“匿名代理”的概念，一个远程的访问者通过发送带有1000个字节参数的 FOLD 命令， 
使 pop 2 d 产生緩冲区溢出，并获得 “ nobody ” 用户的 杈限。 

(3) 标识： 496，名称 ： Multiple Vendor Lsof Buffer Overflow Vulnerability - 简介 ： Lsof 
是一些 Linux 系统（如 RedHat Linux ) 默认安装的一个打开文件的管理组件，用来提供被进 
程打开的文件的信息。当 lsof 为 setuid - root 或 setgidkmem 时，则会有緩沖区溢出的系统漏洞， 
攻击者可以获得 root 杈限。 

然后，采用基于特杈提升的分类方法对以上三个弱点进行分类描述，表5给出了三个弱 
点的分类描述，其中 SA 等六个描述性属性由于篇幅的缘故，将其忽略。 


表5 三个弱点的分类描述 


标识 

CVE 

操作系统及版本号 

涉及的对象 

机密性 

完整性 

可用性 

前提特杈集 

结果特杈集 

攻击复杂性 

3505 

CVE -2001-0851 

RHLimuc 5.：! i 386 等 

无 

C 2- C 1 

无 

A 2 

CPphyaccess 

CPaccess 

E 3 

283 

CVE -1999-0920 

RH Linux 5.2 i 386 等 

p service po 

p 2 d 4.4 

C 4- C 2 

14 

AA - A 2 

CPaccess 

CPuser 

E 6 

496 

CVE -1999-0405 

RH Linux 5.2 i 386 等 

f :/ usr / sbin/ls 

of 4 4 

C 8- C 4 

18-14 

A 8- A 4 

CPuser 

CProot 

E 6 
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下面，将对上述三个弱点进行分析。 

首先，我们将以此为例，阐述弱点间 
的关联性，以及多个弱点产生一系列特杈 
提升的 过程。 V 35 05 使攻击者从特杈集类 
CPphyaccess 达到 CPaccess - 从而穿透防 
火墙访问系统的网络 服务； V , 83 使攻击者 
从特杈集类 CPaccess 达到 CPuser -进而 
获得一个普通用户的杈限； V 496 使攻击者 
从特杈集类 CPuser 达到 CProot ， 最终获 
得系统管理员的杈限 。特杈 提升的过程以 
及弱点间的关联参见图2所示。我们分别 
用关联弱点链“ 3505—283 ”、“ 283— 496 ” 和“ 3505—283— 496 ” 表示三个弱点间的关联关系。 


其次，给出弱点的风险评估算式 

H=Hc+Hi+Ha=CxPc+IxPi+A 乂 Pa (1) 

R=Rc+Ri+Ra=HxE (2) 

// r=Max {Hn\n € 弱点 v 和以 v 为头的所有关联弱点链 } ⑶ 

6弱点 v 和以 v 为头的所有关联弱点链 } ⑷ 


其中， Pc 、 尸 /、 Pa 分别为 C 、 /、4的风险系数，均设为1, //表示危害值， i ? 表示风险评估 
值。表 6 给出了弱点 3505、283、496 以及关联弱点链的评估值，由算式 (3) 和 (4) 可知， 

及 3505 =0_384, // 3 5 Q 5=3.0； 及 283 =1_792, H 2S 3=2.S ； R A96 =IM> H 496 =l.S- 表 6 6勺据表明： (1) 弱 
点 3505 的危害值仅为 0.2, 而它的关联弱点链 “3505—283—496” 的危害值为最大值 3.0， 由 
此看来，一个表面认为较轻的弱点可能会引起一系列特杈提升，而给系统带来严重的后果； 
⑵从// 35 05却％与 及 w 的危害值和风险评估值的对比结果 3.0:1.8 与 0.384:1.44 可以看 
出，由于攻击复杂性的引入，理论上危害性很大的弱点实际上给系统带来的风险却相对很小。 


表6 各弱点（链）的评估值 


弱点（链） 

危害机密性 

危害完整性 

危害可用性 

总危害值 

风险机密性 

风险完整性 

风险可用性 

总风险值 

3505 

0.1 

0 

0.1 

0.2 

0 02 

0 

0 02 

0.04 

3505^283 

0.4 

0.4 

04 

1.2 

0.064 

0.064 

0.064 

0.192 

3505-^283^496 

10 

1.0 

10 

3 0 

0 128 

0.128 

0.128 

0.384 

283 

0.3 

0.4 

0 3 

10 

0 24 

0 32 

0.24 

0 8 

283->496 

0 9 

1.0 

0 9 

2.8 

0 576 

0 640 

0 576 

1.792 

496 

0 6 

0 6 

0 6 

18 

048 

0.48 

0.48 

1 44 


机密性 完整性 可用性 



图2特权提升过程与弱点关联性 


由此，我们可以看出，这神弱点分类法能够支持对弱点整体及更细层次的危害性和风险 
性的量化评估，从而，可以对弱点所涉及的操作系统在整体和不同侧面上进行衡量评測，做 
到“体”与“面”的结合。 

4.2 危害級与风险评估級 

从特杈集类和攻击复杂性的杈值可知，对一个弱点而言， C 、 I 、 A 的危害值和风险评估 
值的量值范围均为0~1.0,于是，将其分成五段，每段评估值对应一个危害級和风险评估級， 
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具体划分参见表7。危害級与风险评估級能够大体地反映出一个弱点对系统 C 、 I 、 A 以及整 
体的风险影响^ 


表7 危害級与风险评估級的划分 


級别 

C(H,R) 

/_ 


总危害 

总风险 

危害性与风险性描述 


1 

<0 2 

<0.2 

<0.2 

<0 6 

<0 6 

危害很小，风险性很小，可以忽略 

勹 

<0 4 

<0.4 

<0.4 

<1.2 

<12 

危害小，风险性小， 

考虑采取安全措施 

3 

<06 

<0.6 

<0.6 

<1.8 

<18 

危害中.风险性中， 

需要采取安全措施 

4 

<0 8 

<0 8 

<0.8 

<2.4 

<2.4 

危害大.风险性大， 

应该采取安全措施 

5 

<10 

<1.0 

<1.0 

<3.0 

<3.0 

致命危害，风险性巨大，必须采取安全措施 


5 结论 


本文提出了一种基于特杈提升的多维量化属性的弱点分类法，并以三个弱点为例，阐述 
了该弱点分类法在安全评估中的实践方法。本文提出的弱点分类法在多侧面细层次上的量化 
支持、弱点间特杈提升关系的发掘以及攻击复杂性等方面具有独特的作用，对进一步的安全 
评估以及其他安全实践工作具有重大意义。 
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计算机网络安全性分析建模研究 
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( 哈尔滨工业大学计算机网络与信息安全技术研究中心，黑龙江哈尔滨 150001) 

摘要： 安全性分析研究工作需要把计算机网络与安全相关的系统资源和安全因抽取出来建立一种面向安全性分 
析的安全模型。从安全需求的类别、等级和面临的主要威胁出发，分析了系统设备、访问权限、主体连接关系和 
弱点，从攻击者目的是提升特权的角度对攻击作了形式化的描述。针对计算机系统的安全故障树方法和网络信息 
系统的攻击图方法应用了这一安全分析建模工作。 

关 键词： 计算机网络 安全； 安全模型； 弱点；攻击； 故障树；攻击图 
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Research on computer network security analysis model 

ZHANG Tao, HU Ming-zeng, YUN Xiao-chun, ZHANG Yong-zheng 

(Research Center of Computer Network and Information Security Technology, Harbin Institute of Technology, Harbin 150001, China) 


Abstract: The research of security analysis needed a systemic security analysis model that was from the system resource 
and security factor of computer network. For the classification, rate and the main threaten of the security requirement, 
system devices, access privilege, host connection relation and vulnerability were analyzed, and the computer network 
attack from the point of view that the attacker’s objective was to get privilege escalation was described. The computer 
system security analysis by fault tree and the network system security analysis by attack graph use the security analysis 
model. 

Key words: computer network security; security model; vulnerability; attack; fault tree; attack graph 


i 引言 

随着 Internet 的迅猛发展和网络技术的广泛普 
及应用，黑客入侵、蠕虫和拒绝服务等类型的网络 
攻击找到了更多的攻击途径，成为计算机网络系统 
面临的主要安全问题。这些恶意的攻击行为轻则窃 
取机密信息、篡改系统和数据，重则导致大规模的 
网络瘫痪或网络服务不可用。美国计算机紧急事件 
反应小组协调中心 (CERT/CC) [1] 自从1998年成立以 
来，收到的计算机安全事故报告的数量一直呈上升 
趋势，而这些接报的安全事件只是所有网络安全事 
件的冰山一角。 


为此，国内外的研究人员在计算机与网络安全 
的保护方面进行了大量深入的研究工作，针对信息 
技术产品和计算机网络系统的安全分析、评估、度 
量作为网络安全 PPDRR (策略、防护、检测、响应、 
恢复）模型的一个重要环节，在不同的阶段对构建 
信息系统的软件系统进行安全方面的分析，这方面 
的工作是为了主动发现、定期检查，防患于未然， 
以便起到未雨绸缪的作用。 

面向安全评估的模型是安全评估研究的核心 
内容，本文在此对其进行了深入研究。在第2节介 
绍了安全评估方法的研究现状，第3节对计算机和 
网络的安全属性进行了抽象，第4节对计算机网络 
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攻击作了形式化的描述，第5节介绍了使用建模工 
作的两种评估方法，第6节给出了结论。 

2相关研究 

对计算机安全问题的研究，几乎深入到了计算 
机科学理论和工程的各个领域，软件的安全故障分 
析在软件的设计、测试和使用中有着不同的特点。 
在软件设计阶段，主要目的是要努力避免危害安全 
的漏洞在软件领域，为了最大限度地保证一个系统 
的安全性，研究者经常通过构造一个形式化的安全 
模型并证明其正确，这些安全模型以有限状态机模 
型、存取矩阵模型、 Bell - LaPadula 模型和信息流模 
型为代表。在软件测试阶段，主要目的是要找出可 
能存在的造成渗透变迁的漏洞和错误。在软件系统 
的使用过程中，网络的普及和计算机安全的重要性 
迅速增加，越来越多的网络安全事件和安全漏洞被 
公开，信息系统开发者也随之开发了不同的方法来 
分析攻击数据，找出其中结构化的和可重用的模 
式，提供给系统安全分析使用，为系统安全的改进 
和设计提供指导。 

针对计算机系统进行安全分析的工作最初使 
用的方法是传统的弱点扫描方法，即检验系统是否 
存在已公布的漏洞和简单的攻击路径。例如基于主 
机的扫描工具有 COPS [2] 、 Tripwire 等，基于网络的 
扫描工具有 Nmap [3] 、 Nessus [4] 、 ISS [5] 等，这种安全 
评估方法就是把这些探测和扫描工具的执行结果 
罗列出来，生成简略的分析报告，直接提供给使用 
者。 

目前基于弱点检测的评估方法主要问题有： 1) 
弱点的关联 问题； 由于系统中多个弱点的存在，简 
单的列举或者权值相加这种表达方式不能反映对 
于漏洞关联使用造成的安全损害。 2) 弱点的量化 
问题； 现存的弱点检测之后就是对于每一个弱点根 
据弱点数据库里的知识，给与一个类似于高中低的 
模糊评价值，这种表示方法很难反映弱点在系统中 
造成的真实的安全问题。 

随着计算机网络安全评估研究的深入，国内外 
的研究者在基于弱点探测评估方法研究成果上开 
始逐步使用多种形式化的工具来建立面向安全评 
估的安全模型。安全模型分析的方法可以有效发现 
系统中复杂的攻击路径或者引起系统状态变迁的 
序列。 

攻击树就是一种基于变化的攻击来形式化、 


系统化地描述系统安全的方法，用来对安全威胁 
建模 [6] 。 Moore 详细地论述了攻击树以递归或渐进 
的方式来表达攻击的变化，能比较直观地反映攻击 
者实施攻击的步骤。在攻击树模型中，对系统安全 
的最终破坏可以被表达为一棵攻击树的树根，攻击 
者引起这种破坏的方式可以被表达成攻击树的低 
层节点。这种分析方法往往针对某种漏洞或某个服 
务，而且在叶节点的属性往往是一些冗余过程或过 
细的过程，缺乏全局的考虑。法国学者 Ortalo 使用 
特权图 （privilege graph ) 方法 [7] ，中国科技大学汪 
渊博士等人提出一种基于图论的网络安全分析方 
法并且实现了一个原形系统 [8] ,都是这种评估方法 
的一种具体探讨和实现。 

研究人员为表达攻击者起始点与目标、主机信 
息以及拓扑信息等提出了威胁信息系统安全的攻 
击图。 Phillips 和 Swiler 在1998年首先提出基于图 
的网络弱点分析方法 [9 ’ 1<)] ,作者使用深度优先的正 
向搜索生成攻击图，并根据路径顺序和相对应的弱 
点权重，使用偏序归约的方法排除图中的冗余路 
径。 

使用模型检测生成攻击图的方法首先由 
Ramakrishnan 和 Sekar 提出应用在主机弱点综合分 
析上,他们使用 CCS 描述了和系统安全相关各个部 
分，组合构成的模型反映了整个系统所有可能的行 
为，使用模型检测技术来寻找反例，反例即为一个 
相关的安全属性 违反； 作者在此基础上实现了一个 
unix 系统下的弱点分析工具 [11] 。 Ritchey 和 
Ammann 把模型检测这种评估方法的应用扩展到了 
网络系统的评估中 [12] ,并且用来生成攻击图，他们 
提出的网络攻击模型主要由4个部分 组成： 主机描 
述、主机之间的连接关系、已知的弱点利用知识集 
和攻击者的初始点， CMU 的系统安全分析课题组 
改进了标准的模型检测工具，并利用改进后的模型检 
测工具自动生成目标信息系统的网络攻击图 [13 ~ 15] 。由 
于当目标模型不满足指定的属性时，标准的模型检 
测工具仅可以给出一个反例，因此他们对模型检测 
工具 （ NuSMV ) 进行了改进，当属性不满足时可以 
给出所有的反例。对于一个网络攻击模型来说，这 
些反例就是相应针对指定攻击目标的网络攻击图。 
Sheyner 通过这种方法构造出攻击图后，应用在了 
入侵检测系统 ( IDS ) 的警报关联，以及从单个攻击行 
为来预警攻击。 

已有的基于安全模型的安全性分析方法面临 
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的一个问题是系统状态空间爆炸问题。信息系统 
的状态由各个实体、弱点、主机连接、安全需求 
等等各种信息组成，在使用模型检测方法的分析 
过程中待考察的状态数量呈指数级增长，从而导 
致使用的存储空间巨大。为此 Ammann 在后来的 
研究中放弃了模型检测方法而使用一种基于图的 
方法生成攻击图，并且在其中作了安全单调性假 
设，即攻击者不会重复那些能够获取已有权限的 
攻击动作 [16] 。 

在安全评估模型的理论探索中，北京大学的阎 
强博士根据信息技术评估标准定义了信息系统安 
全评估的安全要素集，并且以等级的形式表示信息 
系统的安全度量，并且根据组合独立性、组合互补 
性和组合关联性对安全要素做了区分，定义访问路 
径、规范路径等概念，给出了信息系统安全度量的 
形式化评估模型及其实现 [17] 。 

在实际使用安全模型进行评估时，虽然模型的 
建立比规则的抽取简单，能够全面地反映系统中存 
在的安全隐患，但是目前已有的研究在安全评估模 
型的建立、描述、验证和度量计算方法都需要进行 
深入的探讨，因为主观因素和模型完备度的缺乏很 
容易造成结果的不确定。 

3计算机网络安全属性 

系统安全评估要考虑的是对已有系统进行安 
全性分析，主要是检验目标软件是否具有已知的 
渗透变迁，需要一种简单、灵活和完备的模型， 
尽量避免系统状态空间过于复杂。同时针对计算 
机网络系统安全评估的模型应该具有通用性和可 
行性。通用性是指模型考虑的要素必须涉及各方 
面对计算机网络系统安全的共同要求，可行性是 
指实施计算机网络系统的评估模型在经济上和技 
术上是可行的。 

3.1 安全需求 

安全需求是用户在系统信息的完整性，可用 
性，机密性等方面的一种安全要求，它主要使用一 
系列安全策略 保证； 安全策略用以确定一个主体是 
否对某个客体拥有访问权力，系统用户或者进程等 
主体的动作应符合的安全行为要求，如自主访问控 
制策略，强制访问控制策略，组织自身的特定策略 
等；系统制定的安全需求集合为= {^，巧， … r p }， 
其中 /•,+ (;_= 1， 2， •••;?) 表示个别策略。 

(1) 安全需求的等级 


按照不同的应用情况，系统的机密性 （ C ) 、 
完整性（ I )和可用性 （ A ) 等安全需求属性风险的 
可以分为不同的等级，以系统的机密性为例，分级 
可参见表1。 

表1 _ 机密性风险的等级表 _ 

分级 特征描述 _ 

ci 证明主机有效性 

C .2 获取 OS 类型及版本号 

C 3 获取应用程序及版本信息 

C 4 探测对象（文件、目录、用户、设备等）在目标主机上的 

存在性 

C 5 读取某用户特定普通文件或非敏感内存空间的数据 

C 6 读取多个普通用户文件或内存空间数据的内容 

C 7 读取某特定特权文件（如 / etc / passwd 、/ etc / shadow ) 或系统 

配置文件或内核及系统进程空间的内容 
C 8 读取任意特权文件或系统配置文件的内容，监视系统或网 

_ 络活动 _ 

从系统的安全属性来看，它们之间具有独立 
性、互补性和关联性。独立性是指每一个安全属性 
都可以作为一个单独的安全质量来评价，相互之间 
并不 冲突； 互补性体现在每种安全属性侧重了不同 
用户的需求，互为补充，综合起来反映全面的安全 
需求； 关联性意味着要攻击者要破坏某种安全属 
性，他也同时具有部分破坏其他安全属性的能力， 
同时影响安全属性的系统漏洞对各个安全属性存 
在着不同程度的影响。 

(2) 安全需求面临的威胁 

对于计算机网络系统的安全需求，不同领域 
的人有不同的要求，不同的侧重点，安全评估研 
究者分析了安全需求与威胁之间的对应关系 [8] , 
如表2所示。在本文的论述中，安全评估研究主 
要面向于已有的软件系统，经过对表2中内容的 
仔细分析，系统威胁、通信威胁和应用威胁这三 
者是对安全需求实施影响的主要因素。系统威胁 
主要来自于计算机网络中操作系统软件出现的问 
题，例如系统漏洞、木马程序、后门程序等。通 
信威胁主要来自于网络上各种设备在数据交流过 
程中易出现的问题，例如监听、会话劫持等。应 
用威胁的主要指运行于系统软件之上的应用服务 
型软件系统出现问题造成的威胁，例如 IIS、FTP 
等应用服务。 

本文主要关注技术上的威胁和运行软件系统 
的威胁，所以对表2其他威胁的暂不作考虑。 
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表 2 




安全需求与威胁 





威胁 





安全需求 





保密性 

完整性 

可审计性 

可用性 

可靠性 

连接性 

可恢复性 

抗抵赖性 

不定性 

系统威胁 

X 

X 

X 

X 

X 


X 

X 

X 

通信威胁 

X 

X 

X 

X 

X 

X 

X 



物理威胁 

X 






X 



人员威胁 

X 




X 





运行环境威胁 

X 









应用威胁 

X 

X 

X 

X 

X 


X 

X 

X 

性能威胁 




X 

X 

X 




设计正确性威胁 

X 



X 

X 

X 





分析安全需求的类型、等级与威胁，可以找到 
破坏这种安全属性的弱点和攻击方法，综合分析已 
有的攻击方法和攻击后果，攻击者在目标系统上能 
够具有的最高访问权限是安全事件影响力的主要 
因素。 

3.2 系统设备 

计算机网络可以看作是由具有不同功能的主 
机组成的集合，这些主机按照其功能可以 分为： 
路由器、交换机、防火墙、服务器、个人计算机 
等类型。在网络中，这些主机都被赋予了惟一的 
标识来表明各自的身份，这个惟一标识可以是主 
机的 IP 地址、 MAC 地址以及主机名等。设此设 
备集合为 H ={ h u h 2 , ,其中 h t ( i = l , 2,… m ) 

表示单个设备。 

网络中的一个主机自身包含很多属性，然而在 
网络安全性分析中，并不需要获得主机的所有属 
性。其中，与网络安全关系密切的主机属性 包括： 
主机上的操作系统类型及版本、主机上开放的服务 
及对应的端口信息、主机上的弱点信息。 

因此，网络中的一个主机用如下的四元组 
ihostid , os , svcs , vuls ) 进行表示。其中 ， hostid 为 
主机在网络中的惟一标 识符； os 是主机的操作系统 
类型及版本 信息； 是主机上开放网络服务的列 
表； VW & 是主机上存在的弱点列表，列表中可能包 
括主机上安装的软件所具有可被利用安全缺陷信 
息，或者错误的环境配置信息。 

3.3 访问权限 

计算机系统在实际的应用环境中，系统访问 
者可以按照具有不同的访问权限来进行分类，国 
内外的许多研究者都进行了这方面叙述 [18 ’ 19] ，本 


文在此将访问者和访问权限结合起来，将系统所 
有可能的访问权限按用户的身份角色分类，如表 
3所示的定义。 


表 3 

访问权限等级 

访问权限 

角色描述 

Root 

系统管理员，管理系统设备、系统文件和系统进程等 

一切资源 

Supuser 

该用户具有普通用户所没有的一些特殊权限，但是并 

不拥有系统管理员的所有权限 

User 

任意一个系统普通用户，由系统初始化产生或系统管 

理员创建，有自己独立私有的资源 

Guest 

匿名登陆访问计算机系统的来宾，该用户具有任意一 

个系统普通用户的部分权限 

Access 

可以访问网络服务的远程访问者，通常是信任的访问 

者，能和网络服务进程交互数据，可以扫描系统的信 

息等 


3.4 主体连接关系建模 

整个 Internet 是基于 TCP / IP 协议族构建，目前 
的计算机网络系统大多也基于此协议。 TCP / IP 协议 
族具有很多协议，并分为不同的层次。遵循这种技 
术规范，网络的设备之间的连接都分布在了不同的 
层次上, Ritchey 曾论述过面向安全分析的网络连接 
关系 [M] 。 

按照协议定义，在链路层， ARP 类型的数据报 
文只是在局域网内部传播，网络内部的设备才能捕 
获这样的数据报文，恶意主体可以利用这种报文进 
行 TCP 会话劫持的攻击。同时，主机之间的连接关 
系在此层也受到网络结构的 影响； 若网络是采用集 
线器连接，数据报文是通过广播传输的，恶意主体 
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可以通过将网卡设置为混杂模式，捕获网络上的所 
有报文，进行协议解析之后便成功地进行了 sniff 
攻击。若网络采用交换机连接，数据报文的传输通 
过交换机转发到相应的端口，不会进行广播，传统 
的概念认为单个用户只能获取发给他的数据包，无 
法获取整个网络的数据报文，但是近期的研究 [21] 
表明在一定的交换网络环境下通过 ARP 欺骗也是 
可以对网络进行监听的，只不过这种类型的攻击需 
要比较高的技术水平。网络设备之间的连接关系在 
数据链路层存 在有: ARP , HUB _ Sniff , Switch _ Sniff 。 

网络层的协议是为网络之间的通信而设计的， 
Internet 上的每一台主机都分配了一个不同的 IP 地 
址，根据网络层的 ICMP 协议可以获取网络路由、 
时间以及目的可达性等信息。对于网络的安全性而 
言，拒绝服务及分布式拒绝服务攻击都能够按照这 
一层协议构造数据报文，对目标系统发起攻击。网 
络设备之间的连接关系在网络层存 在有 ： ICMPJI 
务类型。 

传输层有两个协议 TCP 和 UDP , 每一个协议 
都有65535个端口，分配给不同类型的服务，作为 
主机之间端对端的会话协议，网络设备之间的连接 
关系可以使用协议和端口来标明，例如 TCP _80, 
表示目的端为源端在80端口提供 TCP 服务。即网 
络设备之间的连接关系在网络层存在有 ： TCP 
( UDP ) —端 口号。 

应用层负责为网络提供各种服务，每一种服务 
类型都有不同的应用程序提供了支持，提供相同类 
型服务的应用程序存在着不同的安全问题，为了区 
别这些不同以及用户做过个性化修改，本文把主机 
设备之间在应用层的连接关系描 述为 ： TCP ( UDP ) 
_端口号_服务类型_应用程序名称，例如 
TCP _80_ HTTP _ IIS 4.0, 表示目的端为源端基于 TCP 
协议在80端口，使用 IIS 4.0 提供了 HTTP 服务。 

本文把 TCP / IP 协议中的各种与安全息息相关 
的连接关系表达为一个集合，网络的两两设备之间 
的连接关系是这个集合的一个子集。按照网络协议 
的实现，设网络主机与设备之间的连接关系集合 
Protocol = { propro :, ••• pro ”}, 其中 _ pro ,.( z '= l , 

表不一■种一种连接关系。连接关系集合如表4所不。 

主机之间的连接关系利用一个三元组来 iHsrc , 
Hdst , protocols ) 表示。其中/ ftrc 表示源主机 ， Hdst 
表示目的主机。而 protocols 则是源主机与目的主机 
之间存在的连接关系集合的一个子集。当源主机与 


目的主机之间不存在连接关系时则 protocol 为空 
集。当源主机与目的主机相同时，则其连接关系为 
本地连接，此时 pmtocol ={ localhosf \ 。 


表 4 

连接关系集合 

协议层 

连接关系 

应用层 

TCP ( UDP ) _端口号_服务类型_应用程序名称 

传输层 

TCP ( UDP ) _端口号 

网络层 

ICMPjg 务类型 

数据链路层 

ARP , HUB Sniff , Switch Sniff 


3.5 计算机弱点 

计算机弱点 （ vulnerability ) 或脆弱性是指计算 
机的软件系统或组件在设计、编码、配置和使用的 
过程中的错误造成的缺陷，恶意攻击者能够利用这 
个缺陷，对系统资源进行未授权的访问或滥用，违 
背系统的安全策略，引发安全问题。已公布的全部 
弱点集合为 V ={ vi ， v 2 , — v m j , 其中 v ,( i = l ,2,— n ) 
表示单个弱点。 

研究者已经在弱点分析的研究方面做了很多 
工作 [18 ， 19] ,在本文中，主要考虑弱点的利用、后果 
和关联问题,通过分析多个弱点数据库,使用 ( BID , 
NAME , OS , DATE , Ppre , Peon , AC ) 这个多元 
组来表达一个弱点 V ，其中分别描述如 T : 

BID 是作为同步和兼容各种弱点数据库的一种 
默认通用标识号。 NAME 是弱点 名称； OS 是弱点 
影响的系统对象类型，包括各种操作系统平台、应 
用软件平台和网络设施平 台等； DATE 是弱点发布 
的日 其月； Ppre 表示前提访问权限 (premise privilege , 
简写成 Ppre ) ； Peon 表示结果访问权限 (consequence 
privilege , 写成 Peon ); 表示此弱点的攻击复杂 

性。 

(1) 弱点的访问权限属性 

攻击者利用弱点的过程就是扩大其权限的过 
程，一个弱点应该对应两个访问权 限集： 前提访问 
权限集 Pjwe 和结果访问权限集 Peon 。 

前提访问权限集表示攻击者试图利用一个弱 
点所需具备的必不可少的权限的集合。只有攻击者 
满足印〜时，才有可能成功地利用此弱点。结果 
访问权限集表示通过成功利用此弱点而产生的直 
接权限提升后的访问权限集，结果访问权限集表征 
出攻击者在成功利用该弱点后可以获取到的对系 
统资源访问等级。由于弱点的和 Peon 分布在 
不同的等级上，弱点之间具有了关联利用的关系， 
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产生了一系列不同的特权提升的路径和方法。 

(2) 弱点的攻击复杂性属性 AC 

弱点的攻击复杂性属性用来衡量弱点在攻击 
者针对此弱点进行攻击尝试、获得此弱点的后果特 
权的难易程度，这个属性的受到多种因素的影响， 
例如攻击工具、攻击时间、攻击者的计算资源等等， 
有时候还受限于系统用户的行为。 

随着计算机硬件的迅速升级,现有的个人计算 
机系统已经具有了强大的计算能力，网络应用的普 
及又为各种攻击工具的开发和传播提供了环境，影 
响攻击复杂性的多维因素可以映射成为一个单变 
量的 函数； Littlewood 从软件可靠性的角度出发， 
定义一种基于随机过程的弱点攻击复杂性的度量 
方法，对于每个弱点给出了一个单变量的量化值， 
表达攻击者利用此弱点的平均努力 （ effort ) ;他 
认为攻击者只要付出足够多的努力，对某个弱点的 
攻击最终是可以成功，其中 effort 分布符合指数分 
布 [22] 。 

精确的描述弱点的攻击复杂性是不可能的，只 
能通过反映弱点攻击复杂性的一些变量来近似的 
表达出不同弱点之间攻击复杂性的差别。本文使用 
单变量 ot 来表达弱点的攻击复杂性，表示此弱点在 
单位时间内被攻击者成功利用的可能性为 a ， 攻击 
者成功利用此弱点的平均时间为 1/ ct , 即此弱点的 
平均安全时间 MTTSF (mean time to security 
failure )。 参考 CC [ 23 ] 和 Littlewood 的研究 ， a 取值 
可参考表5,单位时间为小时。 


表 5 弱点攻击复杂性量化 


等级 

成功率 

描述 

1 

10' 1 

现成可用的攻击工具与详细的攻击步骤 

2 

10- 2 

无现成攻击工具但有较详细的攻击步骤 

3 

10' 3 

公开报告并提及可能或粗略描述的攻击方法 

4 

10_ 4 

公开报告但未给出攻击方法 


4计算机网络攻击 


攻击对计算机网络安全的威胁是多种多样的， 
攻击的分类方法已经有过很多研究，在本文中，提 
出了使用特权提升描述攻击的目的，并对攻击规则 
和攻击者做了形式化的描述。 

4.1 特权提升 

计算机网络系统中所有可控制的资源均可抽 
象为主体和客体。 


主体 （ subject ) :发出访问操作、存取要求、 
起主动作用的实体，通常指用户或用户的某个进 
程； 全体主体的集合为 *5= {5 i , Si * -5„}, 其中 s,(i = 
1, 2,…》)表示单个主体。 

客体 ( object ) :信息的载体、被调用的程序 
或欲存取的数据访问，即起被动作用的实体，如文 
件、存储器、接口等，全体客体的集合为0 = { 01 ， 
02 , •" Oo }> 中 0/( / = 1， 2,… 0) 表示单个客体。 

主体和客体是存取控制中的两个基本概念。主 
体的行为影响着它对之有访问权限的客体之间的 
信息流动。一般来说，所有的主体也是客体，反之 
则不然。每一个主体都与一个确定的用户相关，并 
为之服务。一个用户可以同时拥有多个主体，根据 
用户所要求的服务的不同，会产生特定的主体。 

(1) 特权、特权集 

一个特权 （ privilege) 是一个 （ o, w) 对，其中 
0 是一个客体， W 是主体对客体0的一个非空的访 
问模式集合，对 W 的修改必须获得合法授权。 Pset 
是一个特权集合，即 Pset = {(<?,, mj )\( o h m ；) 是一个 
特权，/=1, 2,"- n , j = l , 

在 IT 系统中，一个特权可以被看作是对信息 
系统的一个访问单元。从授权的观点，一个特权可 
以用一个客体的访问模式来定义，每种访问模式对 
关联的客体有某种特定作用，如执行某些特权可以 
读取文件，执行另一些特权可以修改文件等。 

对系统中特定的用户 User 来说，他所具有的缺 
省的特权集是确定的，即在合法访问的情况下, Pw / 
是确定的。对攻击者（或具有攻击倾向的用户）来 
说，他利用目标系统中的弱点来实施攻击，目的是 
为了获得更多的特权（即扩大 集）； 而从弱点 
的属性来看，弱点具有给某类攻击者带来更多特权 
的特征。 

(2) 特权提升 

如果用户 User 利用某个弱点获得了新的特权 
集 Pset ', 且存在某个对象 o ' 和非空的访问模式集 
使 （ <y ， w ’） e ' 但 （ o 1 ， w ’） g Pset ，则称 User 

获得了特权提升。 

从攻击的观点来看，攻击者的一次次攻击尝试 
到达到攻击目标是一个积累的过程，其中每一步取 
得的攻击成果都作为一个离散事件表现出来，都可 
以看作是一次特权提升。 

从系统管理员的角度看，每一种漏洞的后果都 
会或多或少影响到系统的安全策略，对系统安全的 




• 106 • 


通信学报 


第26卷 


机密性、完整性和可用性等属性造成直接或者间接 
的负面影响，只要对系统的任何安全策略造成了负 
面影响，都可以看作是一次特权提升。 

4.2 攻击规则 

利用一个弱点实施攻击时，需要满足一定的前 
提条件。攻击成功后，攻击结果使得攻击者对网络 
的访问能力获得了提升，即产生了特权提升的情况， 
可以作为下一个攻击的前提条件。用一个规则来表 
示一个攻击时，可以看作是一组前提条件到一组结 
果的映射，可以用二元组 attack _ rule=C Preconditions , 
Postconditions ) 来表示，其中 /VeccwoKora 为前提 
集合， Postconditions 为相应的结果集合。 

前提集合包含四个元素，表示为 Preconditions : 
{ Srcprivilege , Dstprivilege , Vuls , Com _ pro / o }。 其 
中， Src_privilege 表示攻击者在发起攻击的主机上 
应该具有的最低用户级别。 Dstprivilege 表示攻击 
者在攻击目标主机上应具备的最低用户级别。 Vuls 
表示这个攻击规则所依赖的弱点。 Conn _ p * o / o 说明 
发起攻击主机和攻击目标主机之间应满足的连接 
关系。 

结果集合包含4个元素，表示为 Postconditions = 
{ Rsltprivilege , Rslt _ conn , Rslt _ vuls } 。 其中， 
Rslt jwMfege 说明当成功应用攻击规则之后，攻击 
者可以在攻击目标主机获得的用户级别。 Rslt—conn 
为受攻击规则影响的网络协议集合，若被攻击主机 
可以利用此集合中的网络协议访问目标网络中的 
某个主机，则当前攻击发起主机也可以获得利用此 
协议访问这个主机的 能力； 若攻击规则不会对当前 
网络连接关系产生任何影响，则 Rslt—com 为空集； 
当时，表示攻击当前攻击发起主机 
可以获得被攻击主机对目标网络的所有访问能力。 
Rsltvuls 是成功利用攻击规则之后被攻击的主机上 
新弱点的集合，它描述了弱点之间的依赖关系。 
若不会新增任何弱点则 Rslt_vuls 为空集。 

综上所述，攻击规则可以表示为 attack _ rule = 
({5 rc _ privilege , Dstprivilege , Vuls , Conn _ proto }, 
{ Rsltprivilege , Rslt — conn , Rslt — vuls }、。 

4.3 攻击者 

攻击者使用五元组 U - fostid , Access _ list , Conn — 
list , Attack _ goal , Max_steps ) 来表示。其中 Hostid 
为攻击者所在的主机。 Accessjist 为初始状态下攻 
击者在网络中所有主机 il 的用户级别，一般情况 
下，攻击者除了具有对本机具有最高的用户级别 


外，在目标网络中的其他主机上具有最低的 
用户级别 Access。Conn list 描述攻击者所在的计 
算机与目标网络中其他主机之间的连接关系。 
Attack』oal 指明了攻击者希望在某台主机上所获 
得的用户级别。例如： {( huRoot ), (办 2 ,穴 oof )} 代表 
攻击者希望在主机 M 和 h 2 上获得 Root 级别的权 
限； 若不指定攻击目标，则表示攻击者在攻击时 
并没有特定的攻击目的。 Max_steps 是假设采取的 
最大攻击步骤数， 若 Max — steps =0, 则认为攻击者 
可以采取任意多的攻击步骤来完成对一个攻击目 
标的攻击。 

5系统安全评估方法 

本文在此把计算机网络安全建模研究应用在 
评估一个计算机系统和一个网络信息系统上。对 
于计算机系统，使用安全故障树的形式作表达。 
对于网络信息系统，本文给出了一个攻击图的描 
述方法。 

5.1 计算机系统的安全故障树 

安全故障树能够提供导致系统安全失效的基 
本事件组合，并可以使用图形和数学表示，它可以 
抽象而准确地描述系统的安全需求而不涉及到其 
实现细节，这使得我们能够全面而准确地理解系统 
的安全需求定义，并可通过形式化的分析方法找到 
系统在安全上的漏洞。 

安全故障树的叶节点是基本事件，表达计算机 
系统中的一个漏洞 V 。 结果事件分为中间事件和顶 
事件两种，中间事件表达了系统的一个中间状态， 
例如攻击者获取的权限 p 顶事件即为系统的一个 
安全需求或者攻击者的一个攻击目标权限，可以表 
示成基本事件和中间事件通过与、或逻辑连接符连 
接成的逻辑表达式。 

本文把这种攻击者试图获取目标系统的访问 
权限（特权等级）作为安全需求的一种实例。以此 
为顶事件，生成了一个系统的安全故障树实例。 

安全 需求： 保护系统管理员 权限尸 4; 

系统漏洞： VI ， V 2 , V3 ， V4 ， V5 ， V 6 , V 7 ， V 8 , V 9 ; 

中间 事件： A , 八， P 2 , 尸 3; 

攻击者初始 状态 ： /V 

为了说明和表达相关弱点的特权提升连接 
关系，按照前提特权和结果特权统计的分布，构 
造出对应的安全故障树，如图1所示。简单描述 
如下： 
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图 1 系统安全故障树 

1) P 0 , P U P 2 , Pi , A 分别按照等级由低到高对应 
了表3中所定义的5个特权等级 Access , Guest , 
User , Supuser , Root , 在图 1 中表示一个相对应的 
特权集用户实例。 

2) 图1中，为简化表示，作为默认共有权 
限，未做标明。 

3) 弱点 V 4 , V5 需要相互借助才能完成从特权集 
尸3到特权集 P 4 的提升，两者构成了一个与门。加 
上 (V 6 ， V 7 ，尸 2 ), (V 3 , 尸 ^这两对，图1中一共有3 个 
与门。 

4) 能够获取 P 4 权限的输入有2个，分别对应 
了 ( Vl ， A ))，（ V 4, V 5， 尸 3)，2个输入，构成了一个或 
门，图1中共存在3个或门。 

5) 图1所示故障树的最小割集为有 （ Vi ), ( v 2 , 

V4 ， V5 ) ， （ V4 ， V5 ， V8 ) ， ( V31 V4 ， V5 ， V6> V7 ， V9 ) O 

最小割集对应了攻击者可选择的攻击路径。 

安全故障树模型提供了定性和定量两种分析 
方法。定性分析的目的在于寻找顶事件发生的原因 
和原因组合，即导致顶事件发生的所有故障模式， 

表 6 


获取与故障树有关的割集和最小割集。定量分析是 
在给出各种基本事件失效率的前提下，分析整个系 
统的失效率，求出顶事件发生的概率和频度。 

5.2 网络信息系统的攻击图 

攻击图是研究人员综合攻击、漏洞、目标、主 
机和网络连接关系等因素，为发现网络中复杂的攻 
击路径或者引起系统状态变迁的渗透序列而提出 
的一种描述网络安全状态的表示方法。 

攻击者在对网络进行攻击时首先是从攻击者 
所在的主机攻击网络中具有弱点的主机，当攻击成 
功之后就在被攻击主机上获得了一定的权限。在能 
力允许的条件下，攻击者可以从已经攻克的主机上 
再次发起攻击，如此往复，直到攻击者达到其攻击 
的最终目的。本文使用网络状态表示在攻击工程中 
攻击者具有的网络资源和网络连接关系，则攻击者 
实施攻击的过程就是从前提网络状态到结果网络 
状态的跃迁。 

(1) 网络环境 

实验网络的拓扑结构如图2所示。网络为交换 
网络，其中共有4台计算机，其中 IP 1、 IP 2 为 
Windows 主机， IP 3、 IP 4 为 Linux 主机，防火墙将 
目标网络与外部网络分开。目标网络中的主机信息 
如表6所示。 



IP1 IP2 IP3 IP4 


Windows XP Windows 2000 RedHat Linux 8.0 RedHat Linux 7.2 

FTP server WWW server 

图 2 网络的拓扑结构 


主机描述 


SVCS _ VULS _ 

{Netbios Remote procedure call, Netbios name} {10108, 10181} 

{Netbios session) {10212} 

{ftp, ssh) {6410} 

{http, ssh) _{10201, 10212} 


HOSTID_OS_ 

IP1 Windows XP 

IP2 Windows 2000 

IP3 Red Hat Linux8.0 


IP4 


Red Hat Linux7.2 
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防火墙允许针对 IP 4 的 HTTP 和 SSH 流量进 
入，其他的流量都被阻断。在网络内部，连接关系 
不会受到防火墙的控制，可以假设网络内部主机可 
以访问网络中存在的任何远程服务。通过对近年 
SANS TOP 20网络弱点的分析，系统中包含了 183 
条攻击规则，其中与实验网络相关的攻击规则8条。 
在初始状态，攻击者除在主机 IP 0 上具有最高的用 
户级别 Root 外，在网络中的其他主机之上其只具 


有最低的用户级别 Access 。 实验中不对攻击者的目 
标和最大攻击步骤数做限定。 

(2) 实验结果 

对所建立模型的自动分析得到的网络攻击图 
如图3所示。其中有向边代表了攻击者的攻击动作, 
节点代表了攻击者所处的状态，若攻击者通过一次 
攻击获得了某台主机的 Root 权限，则后续节点用 
两个双圆节点表示。 



通过对图3中的所有攻击路径分析发现，虽然 
网络防火墙设置了静态的规则来保护网络中的主 
机 IP 1、 IP 2 和 IP 3, 但还是存在攻击者对上数三个 
主机进行攻击的可能性。 

6结论 

计算机网络系统安全评估的研究是随着计算 
机网络技术的发展逐步深入的，跟早期的单纯靠人 
工管理的手段相比，快速的自动信息发现技术和工 
具带来了很大的便利，评估的对象从对单个主机发 
展到了针对整个信息系统，评估的方法从弱点检测 
发展到关注弱点关联利用影响。本文论述的计算机 
网络安全评估建模的工作，全面考察了系统中的各 
个安全实体与安全要素，不但适用于单机系统的安 
全分析，也可用于网络信息系统的安全 评估； 既可 
采用定性评估的方式，也可通过引入弱点攻击复杂 
性的概念来进行定量的分析。 
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王佰玲方滨兴云晓春 
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□ □ □□□□□□□，□□□□□□□□□□□□□□□ ( High-Peifa-mance Packet C^)tuie Platform, HPPCP). □ □ 

□ □□□□□□□□□□□□□□□ dmad □□□□□□□□□□□□□□□□□，□□□□□□□□□□□ 

□ cpu □□□.□□□□□□□□□□□， 

□ □ 64 Byte □ 1500 Byte □□□□□□□□□□□ 90 □ pps (439 VIbps)n 8. 2 □ pps (938 Mbps )，□ □□□□□□□□ 

□ □□，□□□□□□□□□□□□□□□• 

□ □□□□□ TP 393 

The Study and Implementation of Zero-Copy Packet Capture Platform 

WANG Bai ling FANG BirrXing YUN Xiao-Chun 

(Research Cente' of Computer Netwrk ard Information Security Technobgy^ Hcobin Institute cf Technology^ HarUn 150001) 


Abstract Based on the Zero-Copy network I/O，a high-performance packet capture platform (HPPCP) is 
proposed in this paper. By realizing DMA the packet from network card to the memory that the user program 
can access directly，HPPCP avoids the memory access in kernel state and shortens the path to transmit a pack¬ 
et; by managing the data buffer using the ring theory, HPPCP can work without collision to access the shared 
resource. Tlie latency in communication is efficiently reduced for these two improvements. Experimental results 
indicate that the throughputs of HPPCP for 64Byte and 1500%te mess 举 es are 900, OOOpps (about 439Mbps) 
and 82 ， 000pps (about 939Mfcps) re 甲 eclively，and HPPCP surpasses the traditional ones’ in perfoimance. 


Keywwds zero copy; high-speed network interface ； memory map; address translation; access without colli¬ 
sion 
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N N«Card NetCanJ 


脤始报文擄获平台 Zoo copy 报文拥 获平台 

□ 1 □□□□□□□□□□□□□□□□□□□□ 

□ □□，□□□□□□□□□□□□，□□□□ 

□□□□□□□□□□□□□□□□□□□□□□ 3 □□□□□□□ 

□ tcp/ip n □□，□□□□□□□□□□□□□□ 

□ (sk-buff ) 口 □□□□□，□□□□□□□，□□□ Dum □□□□□□□□□，□□□□□□□□， 

□ MSG BuffO，□□□□□□□□□□□□□□□ □□□□□□□□ .linuxQ □□□□□□□□□□ 

□ □□□□□□□□□□□□□□，□□□□□□□ 
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□ □ □ □ □ 


2005 □ 


FreeQ. 

(3) □□□□，□□□□□□□□□□□□□ 

□ □ □ BusyQ, FreeQ □ □ UserBuff. 

3.1 □□□□□□□□□ 

(l)UserBuff 0 □ □ □ □ . UserBuff Q □ □ □ □ □ 

□ □，□□□□□□□□□□□□□，□□□ User¬ 
Buff □ □□□□□□□□□□ RxUserBuff □ □ □ □ 

□ □□□□□ TxUserBuff, □□□□□ 2K 0 □ □ □ 

□ □ • RxUserBuff □ RxBusyQ [] RxFreeQ □ □ □ 

□ □ □ . TxUserBuff □ □ □ TxBusyQ □ TxFreeQ □ □ □ 

□ □□•□□□□□□□□□ 2K 0 □ □ □ Linux □ 

□ □，□□□□ 4K, □□□□□□□□□□□□□ 

□ □ □ MTU(1514n □)；□□□□□□ 2D □□ □ 

□，□□□□□□□□□□□□□□□□□，□□□ 

□ □□□ DMA □□□□□□□□□□□□□□□ 

□ . UserBuff □□□□□□□□□□: 

struct su~buf{ 

char packet [ 1514]； 
uint pktlen ； 
uint kofset^ 

} 

□ □ ， packet □□□□□□□□，pktlen □ □ □ □ □ 

□ □ □ □ □ ， ^offset □□□□□□ UserBuff □ □ □ 

(2 )Dum □□□□□•□□□□□□，□ BusyQ, 
FreeQ □ □ UserBuff □□□□□□□□□□□□，□ 
vmalloc □□□□□•□□ BusyQ D □ RxBusyQ, 
TxBusyQ ； FreeQ Q Q RxFreeQ, TxFreeQ, D D D D D 

□ 2n □. 




ScnrtBuff 

… RxFrc^Q … 


… RxBusyQ … 

TxFreeQ 

••• 丁 xBusyQ … 

phy 


□ 2 Dum □ □ □ □ □ 


□ 2 □ RxFreeQ, RxBusyQ, TxFieeQ，TxBusyQ □ □ 
SWAP-QUEUE □ □ □ □ ， SWAP-QUEUE □ □ □ □ □ 
□ □ : 

typedef stiud;{ 

volatile unsized laig readptr； 


uint quete [ PKT-NUM ]； 

} SWAP-QUEUE 

□ □ ， readptr □□□□□， writq?tr □□□□□，queue 
[/]□□□□□，□ qyeue [ /] = j , □ □ □ □ □ queue 
[z.] □ □ UserBuff [y] 

queue [ /] □ □ □ □ □ UserBuff □ □ (RxUserBuff [] 
TxUserBuff) □ □ • 

3.2 □ □ DMAD □ □□□□□□□ 

UserBuff 0 □ □ 

□ □□□□□□□□□□□□，□□□□□□ 

□ □□□□□ □ □[、□ □□□□□□□□□□□ 
□□□□□□□，□□□□□□□□□□□□□□ 
□□，□□□□□□□□□□□□□□□□□□□ 

□ □ □ (Iinux □□□□□□□□□□)，□□□□□ 

□ □□□□□□□□ RxUserBuff, □ □ □ □ TxUser¬ 
Buff □ □ □□□，□□□□□□□□□□□□□□ 

□ □ □ □ □ 

□ □□□□□□□ UserBuff □□□□□□□□ 

□ □□□□□ phyaddr-table. pliy-addrtable □ □ □ □ 

□ □32 □□□□□□□□.□□ ply-addr-table Q □ 

□ □ □ UserBuff □□□□□□□□□□□□，□□ 

□ □□□□□□□□□□□□□□□，□□ phy-ad- 
dr-table □ □ □ □ □ UserBuff □□□□□□□• 

□ □□□□□□□□□□ UserBuff □ □ □ □ □ 

□ □□□□□□□ UBVA，0 0 □□□□□□□□□ 

□ □ □ □ UBVA □□□□□•□ pl^-addr-table □ □ 

□ □□，□□ pl^-addr-table[ /]□□□□□□□ UB_ 

VA n □ □ □ / 

□ □□□，□□□□□□□□□□□□□□□□□ 
□ □□□□□□•□□□□□□□□□□□□□□ 
□ □□□□□□□□□(□□□□□□□□□□□、 

□ □) ， □□ ， page-num □□□□□□□□，vaddr 0 

□ □ □ UBVA. 

for (/= Q fC page~nun ； i~\ ■■h ，vaddr + = PAGE~SIZE ){ 
pgd - tpgd — pgd - (ffset(current mm, 

(msigned long) UBM )； 
pnd- tpmd= pmd- offset {pgd ， 

(msigned long) vaddr) •, 
pte- tpte= pte-offset Qpmd ， 

(msigned long) vaddr)；/ 
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( pte~val( pte) ScPAGE~MASK)； 

/ * lock the user buffer page */ 
page= pte~page( x pte)； 
set -bit ( PG-locked， Spage flags) •， 
atomic~inc( &page ~ E > count)-, 

} 

3.3 □□□□□□□□□□□ BusyQ FreeQ □ □ □ 
□ □□□□□□□□•□□□□□□□□□，□ 
□ □□□□□□□□□□□□□□•□□□□□□ 

□ □□□□□□□□□□□□ BusyQ, FreeQ □ □ □ 

□ Unux □□□□□□□□□□□□ 

□ □□□□□□□□□□ BusyQ, FroeQ □ ? 

□ □ Linux □□□□□□□□□□□，□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 
□ □□•□□□□□□，□□□□□□□□□□□□ 

□ □□□□□□□，□□□□□□□ |&9] 間.口0 

□ □□□□□□□□□□□□□ DumD □ □ □ □ 

□ BusyQ, FreeQ □□□□□□□□•□□□□□□， 

□ □□□□□□□□□□□□，□□□□□□□□ 
□ □□□□□□□，□□□□□□□□□□□□□ 
□ □•□□□□□□□□□□□□□□□□□□□ 
□ □□，□□□□□□□□□，□□□□□□□□□ 
□ □□，□□□□□□□□□，□□□□□□□□□ 
□□□□□• 

□ □□□□□□□，□□□ Dum □□□□□□ 

□ □ □ □ □ dum-mmap □□，□□□□□ Dum □ □ 

□ □ □ □ mmap □，□□□□□□□•□□□□□□ 

GOO vma, GOO > vna-start D D D D D 

□ □□□□□□□□□□□□□•□□□□□□□ 
□ □□□□□□□□□，□□□□ (□□□□、□□ 
□ □)： 

int dum-mmap (struct fik filp, struct vm~ area-struct vma) 

{ 

vma~^> vm~q?s= &dun ~vm~q?s； 
vma~^> vm~flags I = VM~RESER VED； 
dum~ vma ~open( wna)； 
rdum 0； 

} 

□ □ dim-vm-ops □ □ □: 

struct vm ~cperations - struct dim ~vm~ops = { 
open ； dum -vma-cpen. 


}； 

□ □□□□□□□，□□□ _ap □ □ □ □ 
DumDDD.□□□□□□□□□□□；□□□□□ 
□ □□□□□□□□□□□□□□，□□□□□□ 
□ □□□□□□□□□□□□□□□□，□□□□ 

□ □□□□□□□• dum - vma-mpage □□□□□□ 

□ □□□□□□ 

□ □□□□□□□□□ StartBuff □ □□□□□□□ 

□ □□•□□□□□□□□□□□□□□□□□(□ 

dwn - vma - ncpc^e □□□□□)□ vna ^> \ ma-start 

□ □□□□□□ Qfset , □ □ □ StartBiff + Offset □ □ 

□ □ □ nrniap □ □ □ □ Dum □ ， □ □ mmap □ □ □ 

□ □□□□□□□□□□□， dimi - vma - nq ) age {] □ 

□ Offset □ 0. □ □ □ □ □ StartBuff □□□□□□□ 

□ □□□，□□□□□□□•□□□□□□□□□□ 

□ 3.2 Q □ □，□□□□□□• 

3.4 □□□□□□□□□□□□□□ BusyQ FreeQ 

□ □ □ 

□ □□□□□□□□□□□□□□ dmad □ 

□ □□□□□□□ RxUserBuff, □□□□□□□□□ 
DMA □□□□□□□ TxUserBuff. □□□□□□□ 

□ □□□□□，□□□□□□□□□□□□□□□ 

□ □□□•□□□□□□□□□□•□□□□□□a 

□ □□□□□□□□□□□□□□□□□□•□□ 
□ □□ □ 3Q □. 



close: dum-^na-dose. □□□，□□□□□ RxBusyQ □□□□□□□ 
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□ ， RxFreeQ □□□□□□□□，□□□□□□□□ 

□ □口 PKT~NUM；U □ RxUserBuff □ PKT-NUM □ 

□ □□□□，□□□□□ 2K 

□ □ □ • 

□ □ 1. □ □ □ readptr Q writeptr □ □ □ □ □ 

□ □ 2. □ □ □ writq?tr +1 □ □ readptr 0 □ 

□□□□□□，□□□□□□□□□• 

□ □ i . □□□□□： 

^define GET~READER ~ 1TEM( g) g — 
queue [ Q — recuptr ]； 

□ □2. □□□□□： 

SET-WRITER-ITEMiQ, i) \ 

Q queue [ Q — writq?tr] /； 

□ □3. □□□□□□□□□： 

^define INC~ WRITERS Q) Q wnteptr\- + ； \ 

if( Q —writq?tr〉= PKT-NUM) Q — writq?tr= 

□ □4. □□□□□□□□□： 

并 define INC-READER ( Q) 0 — readptr-\- + ； \ 
if( Q —readptr〉= PKT~NUM) Q ~^readptr= Q 

□ □5. □□□□□□： 

井 define E_EMPTY( Q) (Q — readptr= = Q-^writqtr ). 

□ □□□□□□□□□□□□，□□□□□□ 

□ □ (RxBusyQ)D □ □ □ (RxFreeQ)D □ □、□ □ □ 
□，□□□□□□□□: 

1. □□口 (Queudnit). 

□ RxBu^Q □ □ □ □ writqtr= 0, readptr= Q □ □ □ □ 

□ □ ; RxFreeQ □ □ □ □ writq?tr= 0, readptr = 1， □ □ □ □ □ 

□ (□□□□□);□□□ RxFreeQ □ □ queue □ □ □ □ : queue 
[/]=/，□ queue [，] □口 RxUseiBuf/[ i]. 

2. □□□□□□□□ (GetFieeltem). 

If ( IS-EMPTY{ RxFreeQ)) 

return NULI^ // RxFreeQ □ □ □ □ □ 
else { 

i= GET-READER ~ITEM( RxFreeQ )； 

INC- READER ( RxFreeQ )； //□□□□□□ 

Return &RxUserBuff[ z] ； //□□□□ 

} 

3. □□□□□□□ (AddDataltem). 

□ □ RxBusyQ D RxUserBuff □□□□□□ □□□，□□ 

□ □□□□□□□□□□(□□□□□□□□□，□□□□ 

□ □□□)•□□□ RxUserBuff[ /] □ □ □ RxBusyQ □ □ □ □ 

SET- WRITER-ITEMi RxBusyQ, /)； "□口 


4. □□□□□□ (GetDataltem). 
ff ^-£71^77( RxBusyQ) 

return NULU // RxBusyQ □ □ □ □ □ 
else 

{ 

i= GET-READER-ITEMi RxFreeQ); 

INC- READER ( RxBusyQ ) ； "□□□□□□ 

Return &RxUserBu^[ (\ ; //□□□□ 

} 

5. □□□□□□□ (□□□□□□□ AddFiee-Item). 

□ □ J □ □ RxFreeQ □ RxUserBuff □□□□□□□□ 

□，□□□□□□□□□□□□□□□□ Rxl^erBujff[ □ 

□ RxFreeQ □ □ □ □ 

SET-WRITER-ITEM(Bx¥red^ /)； //□ □ 

INC- WRITER (RxFreeQ) ； //□□□□□ 

□ □□□□□□□□□，□□□□□ dmadD 

□ □ □ □ □ RxUserBuff □，□□□□□□□;□□□ 

□ □□□□□，□□□□□□□□□□□□□□□ 

□ (GetFreeltem)，□ □ IterBuff □ □□□□□□□□ 

□ □□□□□□□□，□□□□□ Rx-Queue, □ □ □ 

□ dmaq □□□；□□□□□□□□□□□□□□ 

□ □ □ BusyQ D (AddDataltem). □□□□□□□□□ 

□ RxBusyQ, □□□□□□□□□□ (GetDataltem ). 0 

□ □□□□□□□□□□□□□□，□□□□，□□ 

□ □ RxFred^ □ □ (AddFieelton) • □ □□□□□□□， 

□□□□□□□□□□□□• 

4 □□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□ 

□，□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□ •□□□□ SmartBits 

□ □□□□□□□□□□，□□□□□□□□□□ 

□，□□□□□ Linux 7. 3 □□□□，□□ □ 2. 4. 18- 
5smp ； □ □ □ □ □ CPU ： PIV 2. 0G HzX Z □ □ : 4G ， 
n □ 512KB/CPU, n □ Intel (R) PRO/ 

1000 Network Driver. 

4.1 □□□□□□ 

□ □□□□□□□，□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□，□□□□□ 


□，□□□□□ n~lU □□•□□□□□□□□□□□□ 

□ □□□□□□□□ □□□ □□ ^ritqJtr+ 1 Q □ 

readptr, Q 

□ ， □ writeptr □ □ □ readptr □，□□□□□ 1 ， □□□□□， 


□ □□□□□□□•□□□□□□□□□□□□□□□□ 
? 1994^0?^^^na^cl9eiri / icElectronic Publishing Hoififi 9i 濟 ts reserved, http://www.cnki.net 
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□ □ □□ □ 1 



□ 1 □ □ □ 

□ □ □ □ □ 

□ □ □ □ □ 

□ 

IPD □ 

Kbpcap □ □ □ □ □ 

Zero copy 

□ □ □ □ □ 

(X 10 4 pps) 

(Mbps) 

(X 10 4 pps) 

(Mbps) 

斜 B 

17. 0 

83 

90.0 

439 

512B 

16.0 

625 

23.0 

911 

1500B 

1.5 

172 

8.2 

938 


□ □□□，□□□□□□□□□□□□□□□ 
□ □□□□，□□□□□□□□□□□□□□•□□ 
□ □□□□□□ 128 □□□□□，□□□□□□□ 

□ □□□□□•□□□□□□□□□□□□□□ 

4.2 □□□□□□□□□ 

□ □□□□□□□□ IDS □□□□□□□□□ 

□ □□□□□□ Etos □□，□□□□□□□□□□ 

□ □ □ □ EtosD 

□□□□□□□□□□□□□，□□□□□□□□ 

□ □□□□□□□□□□□□□•□□□□□□□ 

□ □□□□ IPG □ 64B □□□□□□□□□□□ 

□ □□□□□□□□□□，□□ 4M. 



发包速度 （ XlC^ps) 

□ 4 64DDDDDDDDDDDDD 


5 □□□ 

□□□□□□□□□□□□□□□□□□□□ 
□ □□□，□□□□□□□□□□□□□□ 一 
HPPCP. □□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□，□□□□□□，□□□□□□ 

□ □□□□□，□□□□□ CPU □□□，□□□ □ 

□□□□□□□□□□□□□□□•□□□□□□ 

□、□□□□□□□□□□□□□，□□□□□□□ 

□ □ □ 128B □，□□□□□□□□，□□□□□□ 


□□□□□□□□□□□□□□□□a- 
□ □□□□□□□□□□□□□□□□□□ 
□，□□□□□□□□□□，□□□□□□□□□□ 

□ □□□□□□□□□□□，□□□□□□□□□， 
□ □□□□□□□□□□□，□□□□□□□□□ 
□ □□□□• 

□ □ □ □ 
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450 

2 Zhou Gui-Lin» Zhang Iflng, Du Yi Ma Qun-Sheng» Li San-Li. HPNI ： 
A new network interface for cluster. Journal of Computer Research and 
Development* 2000» 37(2 )： 201 〜 206(in Chinese) 

(□□□，□ □，口 □，□□□，□□□• HPNI: □ □ □ □ □ □ 

□ □□□□□□.□□□□□□□□ ， 200a 37(2 )： 201-206) 

3 Basu A. ， BuchV. ， Vogels W.，von Eidcen Thorsten. U-Net ： A user- 
level network interface for parallel and distributed canputing. In ： Pro¬ 
ceeding of the 15th ACM Sympoaum on Operating Systems Principles» 
Copper Mountain, Colorado，1995 

4 WelshM.，Basu A. ， von Eicken T. . Incoiporating memory manage¬ 
ment into user level network interfaces. Cornell Unive-rsity Ithaca NY, 
USA ： Technical Report TR97-1620, 1997 

5 Rubini A . ， Coibet J. . Linux Device Drivers. ( 2nd Edition )： 
O’ R~ei%，2001 (in Chinese) 

(RUBINI A. □ □，□ □□ .LINUX □□□□ □ 

□ (□ 2D ).□□：□□□□□□ □ , 2002) 

6 Peter J. . Demir^: Virtual memory. The Computer Science and Engi- 
neerir^ Handbook, 1997， 1747 ~ 1760. http // cne. edu/ pjd/PUBS/ 
vm. pdf 

7 Jacob R ， Mut^e T. . Software-managed address translation. In ： Pro¬ 
ceeding of the 3rd International Symposiim on Hgh Performance Com¬ 
pute r A ichitecture» San Antonio Texas 1997 ， 156 ~ 167 

8 Liu Wei，Zheng Wei-Min, Shen Jun, Ju Da-Peng. Deagn and imple¬ 
mentation of monoiy map mechani an in undedyi ng communication. Jour¬ 
nal of Software ， 1999 ， 10( 1 )： 24 ~ 28( in Chinese with Er^lidi ab¬ 
stract) 

(□ □，□□□，□ □，□□□•□□□□□□□□□□□□ 

□ □□□□□□.□□□□ ， 1999, 10(1 )： 24~28) 

9 WelshM.，Basu A., von Eicken T. . ATM and fast ethernet network 
interfaces for user- level canmuni cation. In ： Proceedirgs of the 3rd Inter¬ 
national Symposium on High-Perfomance Computer Architecture (HP- 


CA)，San Antonio Texas, 1997， 332 ~ 342 


口 Pi 590- S ) P7 AEkiirOicPj(RiflaPiRiblishing House . All rights reserved , http :// www . cnki.net 





52 


□ □ □ □ □ 


2005 □ 


P WANG Bai Ling, bom in 1978, Hi. 

D. candidate. His primary research irterests 
include computer and network seoirity? and 
infoimation content seoirity. 

Background 

Emerging high- speed networks provide several hundred 
megabits per second. However，the maximum achievable throughput 
available to the end-user or application is quite limited. So the stuc^ 
on high-performance network I/O has beame a hot topic in this 
scope. Its goal is to fully utilize the ndwodc bandwidth and to im¬ 
prove the perfonnance at the application level 

HPPCP and parallel TCiy IP stack running over it are two cores 
in our whde s^sten, and most of the researchers are hi^i on these 
fields. This papa proposes the study and implementation of HPPCP 
based on the Zero-Cq>y network F 0. Hie objectives of this stuc^ 


FANG Knr Xii^ bom in I960 professor and Hi. D. super¬ 
visor. His primary research interests include computer and netwoik 
seoirity, information caitent seoirity? and parallel computing. 
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visor. His primary research interests include computer and network 
security? infa'mation caitent seoirity? and grid computing. 

are ： (1) to understand how the V 0 aibsystem relates to netwoik op- 
eratiais. (2) to evaluate and analyze the performance cf such a sub¬ 
system and (3) to propose an approach for improving the maximum 
achievable bandwidth and reducing end-to-aid communication laten¬ 
cy- 

The achievable bandwidth in communication is efficiently im¬ 
proved for these Iwo improvements. Experimental results indicate that 
the throu^iputs of HPPCP for 64Byte and 1500%te messages are 
900 OOOpps (about 439Mbps) and 82 OOOpps ( about 939Mbps) re¬ 
spectively. It suipasses the tiaditiaial cues by a long way. 
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Risk Propagation Model for Assessing Network Information Systems 
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Abstract: To assess the security risk of network information systems, this paper proposes a risk propagation 
model including a risk network and a risk propagation algorithm. A representative example is given to illustrate the 
application of this model to network risk assessment and validate the correctness of the propagation algorithm. The 
analysis of the example indicates that the evaluating method using the risk propagation model is superior to the 
traditional methods in the accuracy of evaluating conclusions and making cost-effective security advices. 
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□ □□□□□□□□□□□□□□□□□□『□□□□□□□□□□□□□□□□□□□’□□□□□□a 

□ [3] n □□□□□□□□□□□□□□□□□□□.□ 

□ □□□□□□□□□□□□□□□□□□□□□ ;Ritchey □ Ammann [41 D □□□□□□□□□□□□□□ 

□ Jajodia □ □ [51 D □□□□□□□□□□□□ TVA ， 口 

□ □□□□□□□；□□□□ [61 n □□□□□□□□□□□□□□□□□□□□□□□□□□.□□□□□□ 

□ □□□□□□□□□□□□.□□□□□□□□□□.□□□□□□□□□□□□□□□□□□□a. 

□ □□□，□□□□□□□□□□□□□□ [7 ' 81 D □□□□□□□□□□□□□□□，□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□，□□□□□□□□□□□，□□□□□□□□□□□□ 

□ □□□□□□ :2) □□□□□□□□□□□□□□□□□□□□□□□□□□□□□，□□□□□□□□□ 

□ □□□□□. 

1 □□□□□□ 

11 □ □ □ □ 

□ □□□□□□□□□□□□□. 

□ □□□□□□□□□□□□□□□□□□□，□□□□□□ «□□□□□□ ■□□□ ㈣ ，口 □ □ □ □ □ 

□ «□□□□□□,□□ C„ s . 

□ □□□□□□□•□□□□□□□□□□□□□□□•□□□□□□□□□□□□□□□□□□□CIO 

□ □□□□□□□□□□□□□□□□□□□□□.□□El [9] 口 ，Yau , 

□ □□□□□□□”，□□□ NNC,D □ □ NNC □ □ □ □: 

□ □ 2([] □ □ □ □ □ (network node correlation^ D NNC)). □□□□□□□□□□□□□□□□ AQ 

□，口 □ ^ D D D D D Ca,o q n s □ □ □ □ □□□□，□□□□□□□□ s , 口 □，□□□□□□□□□□ 

□ □□□□□□□□ 4 □ Cb ; □ NNC ,[] □ □ NNCAi ： Bj,U □□□□□□□， 口 □□□□□□ AD fi D D D 

AWC ^. 口 □□□□□□□□□ (A,i,B,j,P,W)Q □ □ NNC AtBj U □ □ □ □ ， □ □ □ □ □ □□□□;/> □ 

□ □ □ □ NNCD □□□□□□□□□ ,Ps[0,l];lVD □□□□□□□□□□□□□□□□ ,We [0,+oo).[] □ □ □ 

□ □:1) □□□□□□□□□□□□□□□，□□□□□□□□□□□□ □，口 □□□□□□□□□□□□□□ 

□ □ ； 2) □ □ PO WD □□□□□□□□□□□□□□□□□□□□□□□□□□□□. 

□ □□□□□□□□□ NNC,D □，□□□□ NNC □□□□□□□□□□. 

□ □ 3(Q □□□□□). □□□□□□□□□ NNC □□□□□,□□□□□□□□□□□，□□ 1 □ □ 

□ -A~D □□□□□；/,/□□□□□ A，B □□□□;□□ □ e(Ai,Bj)U D NNC Ai:Bj ;U □□□□□□□□□□□□. 

□ □□□□□□□□□□□□□□□□□□□□，□□□□□□□□: 

□ □ 4(D 

□ C □ □ □ :1) □ □ C 

□ □□□ CD □ □ ； 2) □ □ CQ □ □ □ □ □ CD 

□ □ 5(D ODD )•□□□□□□□□□□□ 3 □ □ □ □ G A,B,C,U □ □ □ □ e(Ai,Bj)U e(Bj,Ck),U □ □ A 



□ □□ 
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□ □□□•□□□□□□□□.□□□□□□□□□DO □ □ □ e(Ai,Bj)U □ □ £□□□□，□□□□，□□ 

□ □ SQ □ □ e(Bj,Ck)U □□□ C;Q □□□□□□□□□,□□ e(Ai,Bj)U e(Bj,Ck)U □□，□□□□□□□□□ 

SQ C.D □，□□□□□□□□□□□，□□□□□□ 

□ □□□□□□□□□•□□□.□□□□□□□□□□□□□□□□□□□□□• 



□ □6(D 

□ □□□□□□□□□□□□□. 

□ □ ?(□□□□). □□□□□□□□□□□□□□□□□□□□□□□□□□，□□□ D=(/V,£).D □ ,N 

□ □□□□□□□□□□□□□□ □ □ □ □ ，况 □ □ □ □ □ □ F,R,SU □ □ .FQ □ N,Q □ Q 

□ □口 □，口 □□□□□□□□□□□□□□□ 口 [101 ：^ □口 □口 N,Q □ □ □ ,F,/?e[0 ; +®) ； 5D #,□□□□□□ 

□ □ □ ,5={S,-IP,i?,y}.5,- □□□□□□□□,S, □□□□□□ P,R,V □□□?□□□□ 5, □□□□□□□, 
^£[0,1]^ □ □ □ □ S,u □ □ ^e[0,+®)；yn □ □ 5 ■，- □□□□□□ □ ,V={V,\P,W,R}，U □ ,V,D 

□ □ □ P,W,R □□□•-?□□□□□□□□□□□ ，/ , e[0,l];lV □□□□□□□□ ,lVs[0,+oo);i? □□□□□□□ 

□ PQ WDDDDDDD 尺 [11 ’ 12] ，口 r=Pxw.Q □□□□□□□□□□□□□□□□ [ 13] 口 □ □ □ □ 

□ □□□□□□□.□ □ ，五 2[] □.□□□□ DC □□□□□□ 


... (Ni\F,R,S) … ... {A,i,Bj,P,W) ... 

: ~^ - 

(Vi\P,W,R)... 

Fig.2 Hiberarchy of risk network 
□ 2 □□□□□□□□□ 

□ □□□□□□□□□□□□□『□□□□□□□□□□□□□□□□□□□□□□’□□□□□□a 

□ □ R,a 尺 。.口 □□□□□□□□□□□□□□□□□□，□□□□ c Aj a □□□□□□ □□□□□□ □ 

□ □ K -<□□□.□□ < =A. ， /. 尺 ，口 □□□ C A] □ □ □ / 

□ □□□□□，□□ Q, □□□□□□ □ <□□□□□□□□□□ <〜<_□□□，□□□□ <□□□□□ 

□ C ba -D □ □ □ □ e(BkAj)Q □ □ □ ,□ = B.k.P x e(Bk,Aj).P x e(Bk,Aj).W. 

□ □□□□□□□□’□□□□□□□□□□□□□DO. 

□ □ 8(D □□□□□). □□□□□□□□□□□□ M=(D,A),Q □：£> □□□□□□ ；A □□□□□□□□, 
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□ □ • 

1-2 □ □ □ □ 

□ □□□□□ ODDDDDDDDD,DDDDDDDDDDDDDDDDD，DDDDDDDDDDD 

□ □□□□□□□□□□□□□□□□□.□□□□□□□□’□□□□□[JO (reductionism ) 口 □ □ □ (holism) 

□ □□□□□□□□□□□□□□□□□□□.□□•□□□□□□□□□□□□□□□□□□□□□□□a 

□ □□□□□□□□□□□□□□□□□□□□□□□)，□□□□□□□□□□□□□□□□□□□□□□ 

□ □.□□□□□□□□□，□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□， 口 

□ 口 □，口 □□□□□□□□□□ 

□ □•□□□□□□□□□□□□□□□□□□□□□□□□□ RHQD ,RHeA. 

RH □□□□□□□□□： 

□ □:□□□□ D=(N,E),Q □ □ □ V={n.s.Vi\n.s.ViU □ □ □ C„ s 口 □ □ v,-,neiV,ien.5}. 

□ R(D). 

(1) □ □ □ :□ □□口 2=0；Q D D neN,sen.S,n,R=O,n.s.P=O,n.s.R=O,n.s.PS=0; 

(2) while (V^0) 

{ 

(3) □(□)□□□□□ m.i.VjeV,U □□口 "m.i.v j .P' , {\ D m.i.PS,{\ C,„,Q □ g; 

(4) □□□□□□□□□ RH l (C mi rm.i.v j .P\Q)-, 

(5) □ 2 □ □ □ C„„; 

) 

(6) □ □ □ neN,sen.S,Q □□□□□□ □口 RH 2 (C ns ,n.s.PS),[\ □ □ n.R = ^n.s.R,R(D) = ^(n.Rxn.F ); 

s&n.S n&N 

(7) □ □ DU R(D); 

RH □□□□□□□□ (□ 10 )□□□□□□□( 口 2-5 □)□□□□ □ (□ 6Q )3 □□□□□，□□□□□ 

□ □□□□□□□□,□□□ OD □□□□□□□□□□□□□ ——□ □ PS，U □□□□□□□□□□□□□ 

□ □□□□□□□□□□ ^ eDDDDDDDDDD 

□□□□□□□□□□□□. 

□ □□/?//! □□□□□□□: 

□ □ C mh U □ □ Pstr,U □ □ □ g. 

□ . 

(!)□□□□□□ e(mi ， nj)eE ， 

{ 

(2) □ □ C nj eQ,U □ □ □ □; 

(3) □□,□□□ □ ^Pstrxeimi.nfi.F'U □ n.j.PS,U C nj U □ Q\ 

( 4 ) □ □ □ □ RH l (C nj ^strxe(mhnj).F\Qy, 

(5) □ 2 □ □ □ Q ； 


□ □□□□□□ □□□□□□□□□□□□,□□□ C mi -□□□,□□□□□□□□□□□ Pstr □ □ 



□ □□ 
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□ □□□□□□□□□□□□□□□□.□□’□□□□DO GD □□□□□□□□□□□(□□□ 

□ □□□)□□□□□□□□□□□□□□，□□□□□□□□□□□□□□□ QU(UU 2Q ),□ 
□，□□□□□. 

□ □ □ rh 2 U □□□□□□: 

□ □ c ns ,u □ ps. 

□ □ -PSU □□□□□□□□□□□• 

(1) while ( 尸 5 □□□□□□□□□□□□□) 

{ 

( 2 ) □ □ □ □ □ □ ^PlefiiXeiai^.F'ePS^U □ Plefti □ □□□□□□□□□□□□□□□□□[ 

(3) □ □□口 ^RH^APlem^aUbjyF'U □ PS; 

} 

\PS\ 

(4) □ □ □ □ □ □ P = l - n(i —number(Pstr]) 、， Pstr] g PS .， 

i=i 

(5) □ □ C ns ^O,Q 

G \ number (Pst^) x e(vw, xy) W, □ □ Pstrj^ □□□□□□□□, □□口 < V(vw,xy).P ,, l 
n.s.R = / < 卜 

[n.s.v r R , □ □ □ Pstr] =“nj.v r F’ J 

n.s.P=P; 

(6) □ □ string{P)\ 

□ □□□□□□ 況 □ □ □ 作 □ □ □ □ □ C„ S D □ □ □ □ n.s.P □□□□□□ n.s.^.Q □ 

□ □□□□□□□□□□□□□□.□□.□□□□□□□□□’□□□□□□□□□□□□□□a 

□ □□□□□□□□□□□□，□□□□□□□□□□□□□□□□□□□□□□□□□□□□[ 

□ □□□.□□□□□□’□□□□□□□□□□□□□□□□(a 1~3 : 

□ □□□□□□□□□□□□□□□□□□□□□(□ 4Q )□□□□□□□□□□□□□(□ 5[ 

□ numberOQ stringQU □□□□□□□□□□□□□□□□• 


2 □□□□□□□□ 

□ □□□□□□□□□□□□□’□□□□□□□□□□□□□□□□□□□□□•□□□a 
□□□□□□□□□□□□□□□□□□. 

2.1 □□□□□□□□□□ 

□ □□□□□□□□□□□□□□ 3 □ □□ A~D □ 4 □ Linux □□□□□□ 

□ □□□□□□□ M~D 

□ □□□□□□□，□□□□□□□□□□□□□□□□□□□，□□□□□□□□□□□□□□ 

□ □□□□□□□□□□ •□□□□□□□ ：A □□□□□□□□□ root □□□ v, □□□□□□ □ 

□ □ v 2 ;B □ □ rshd AQ DQ root □ □ □ root □□□□□□ shell □ □ ;CD □ telnetd □ 

□ root □ □ □ □ □ root □ □ □ □ telnet □ □ C,rshd □ □ □ □ □ D □ root □ □ □ root □□□□□[ 

□ CQ □ □ Q root □ □ □ v 4 Q v 5 \D □ □ sshd □ □，□□□□ root □ □ □ v 3j A □ □ □ user □ C □ 

□ □ root □ □ □ □ ssh □ □ ZX 


□ □ □ □ □ 
□ □ □ □ □ 


□ □□，□□ 
□ □ □ □ □ 
□ □ □ □ □ 
]□□，□□ 
]□□.□□， 
□ □ □ □ □ 
，□□□□□ 
!)•□□□□ 


□ □ □ □ □ 


]□，□□□ 
□ □ □ □ □ 
□ □ □ □ □ 
□ □ □ □ □ 
□ □ □ □ □ 

□ □ user □ 
rshdQ Q ,B 

I shell □□ ， 

□ □ root □ 
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RootiV] 

User:v 2 



Fig.3 An example of network information system 
□3 □□□□□□□□ 


□ □，口 040[]. 

□ □□□□□□□□□□□□□， 口 □□□□□□ A-D.D 1 Q 2 □ □ □ □ root □ user/'l.l.v^'Q □ □ □ A 

□ □ root □ □ □ □ vi，£i □ □ □ □ □ e(ll ， 21 ) ，口 
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Table 1 Risk status of the network system 

□i □□□□□□□□□ 


Network risk 

8.319 2 

Node risk 

□ 1.600 0 

□ 1.426 6 

□ 3.068 2 

□ 2.224 4 

Subject risk/probability 

□ 0.8000/0.8000 

□ 1.4266/0.9232 

□ 3.0682/0.9972 

□ 2.2244/0.9845 

□ 0.8000/0.8000 
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Fig.5 Contrast of evaluating conclusions drawn by the model method and the traditional method 
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Table 2 Security impact sequences of risk sources and risk propagation approaches 
□ 2 □□□□□□□□□□□□□□□□□□ 


Impact object 

Network 

Node □ 

Node □ 

Node □ 

Node □ 


V 2 ： 1-595 6 

Vi ： 0.800 0 

五 5:0.786 6 

V 4 :0.800 0 

V 3 ： 0.800 0 


Vi ： 1.588 3 

V 2 ： 0.800 0 

£•1:0.640 0 

V 5 :0.800 0 

£ ： 4 ： 0.784 4 


V 3 ： 1.150 2 

V 3 ： 0.000 0 

Vi ： 0.640 0 

£ 6 :0.742 4 

E 2 ： 0.640 0 


五 5 :1.000 4 

v 4 ： 0.000 0 

V 3 ： 0.053 5 

五 3 :0.725 8 

V 2 ： 0.640 0 

Vulnerability 

V 5 :0.869 8 

V 5 :0.000 0 

五 4:0.044 2 

V 3 :0.296 8 

V 4 :0.062 5 

(directed edge): 

V 4 :0.869 8 

£i ： 0.000 0 

V 2 :0.023 8 

£ 5 :0.213 8 

V 5 :0.062 5 

risk difference 

五 4 :0.828 6 

•fi^O.OOO 0 

五 2 :0.023 8 

五 2 :0.131 9 

VpO.016 4 


&:0.795 6 

E^O.OOO 0 

V 4 ： 0.007 4 

V 2 :0.131 9 

£ ： 3 ： 0.016 4 


EnO.lSS 3 

£■ 4 : 0.000 0 

V 5 ： 0.007 4 

Vi ： 0.131 9 

£i ： 0.016 4 


五 6:0.742 4 

E^O.OOO 0 

£■ 3 : 0.000 0 

^i ： 0.131 9 

£ ： 5 ： 0.000 0 


£■3:0.742 2 

^•O.OOO 0 

E^O.OOO 0 

£■ 4 : 0.000 0 

五 6:0.000 0 


3 □ □ 

□ □□□□□□□□□□□□□，□□□□□□□□□□□□□□□□□□□□□□□□□□□□，□□ 
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Abstract _Although peer-to-peer system is scalable for content 
distribution, its lifespan is shorter than traditional systems. More 
and more researchers pay close attention to swarm lifespan and 
propose specialized methods to extend it. Bundling technique and 
SRE (Share Ratio Enforcement) mechanism in Private Tracker 
system are two successful enhancements which are proved by 
practical systems. However, they have side effects to system users. 
One of the reason is that the enhancements do not take effect 
on the key factors. So there is a question, what factors influence 
lifespan? A model which can answer this question is needed 
to help system designers. Facing the challenges, we measure a 
popular BitTorrent system with a macro view which is different 
from previous works. Based on our measurement, we model the 
long term evolution to find out factors that influence swarm 
lifespan. In order to unveil the trend of a swarm, we propose a 
half-life based metric. According to the metric, our model fits the 
real swarms more closely. By the help of our model, we analyze 
the strengths and shortcomings of bundling technique and SRE 
incentives. 

I. Introduction 

Peer-to-peer system attracts more and more users since it 
can offer scalable bandwidth and high downloading speed. 
More and more content providers adopt peer-to-peer system to 
deliver their files, such as Blizzard Entertainment who delivers 
game installers with the help of peer-to-peer technologies [1]. 

Although the feature of self-organizing can easily organize a 
massive of peers to share file content, the volatility of peer-to- 
peer swarms leads to short lifespan. A swarm is constitute by 
the peers that share the same file. While fewer and fewer new 
peers participating in the swarm, the number of active peers 
decreases gradually. Users cannot get files immediately when 
there is no active peer. The problem is also known as swarm 
availability and is proved as a serious problem in current peer- 
to-peer systems. According to the result of Daniel et al., there 
was less than 35% swarms had at least one seed available all 
the time and almost 80% of the swarms were unavailable 80% 
of the time [2]. 

Because of the low availability of peer-to-peer swarms, de¬ 
signers and researchers proposed many mechanisms to extend 
the lifespan [3], [4]. Daniel et al. analyzed the effects of a 
well-known mechanism called content bundling [2]. Bundling 
technique combines many related swarms to one big swarm, 
which increases peer arrive rate. The authors believe that the 
increase of peer arrive rate is the main cause of longer lifespan. 


However, bundling forces users download more files than they 
want, which is an obvious side effect. 

Cross-torrent incentives are another mechanism that can 
extend lifespan. SRE (Share Ratio Enforcement) incentive is 
one of the enhanced incentives that deploys in real systems. 
The enhancement forces users upload specific amount data 
at least, or the user will be banned. There is an interesting 
phenomenon called “upload starving” [5]. The phenomenon 
shows that there is excessive upload bandwidth in the system 
while SRE still encourage users upload more. The reason is 
that SRE incentive does not choose a proper incentive target 
of the enhancement. 

In order to design an effective mechanism, we face two 
problems. First, which incentive targets are proper for an 
effective enhancement? Unfortunately, there is no specific 
conclusion for this question. Previous works either focus on 
the situation of flash-crowd or are on the basis of short 
term swarm characteristics. Second, evaluating the swarm 
evolution trend is difficult. Real evolution always has unex¬ 
pected fluctuations, which makes common evaluation criterion 
meaningless. Besides, cold swarms may be removed manually 
by the swarm creator or tracker operator. So we also cannot 
use the lifespan directly as a evaluation metric. 

In this paper, we propose a mathematical model to seek 
the fundamental factors of swarm evolution. Different from 
the works that are based on peer arrive rate and leave rate, 
we combine related peer events (participation or departure) to 
one whole behavior. Based on the new view of swarm, we 
combine all peer lifecycle to depict swarm evolution trend. 
Therefore, we can look the swarm at a bird view and point 
out the general factors of lifespan. 

We then give a new metric of evolution trend which uses the 
half-life of swarm evolution. In the flash-crowd of a swarm, 
the number of active peers will reach the maximum. Then the 
peer number decreases gradually. We define the half-life of a 
swarm as the time it takes for the peer number to decrease 
to one half of the maximum. According to the new metric, 
our model has more closely prediction than previous models. 
Guided by the modeling results, we discuss the influences of 
different factors and analyze the strength and shortcoming of 
existing solutions. 

The rest of this paper is structured as follows. Section II 
presents related works on peer-to-peer systems. Based on our 
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Fig. 1. The CDF of peer’s participation times 


B. Another View of Peer Churn 

In previous works, every participation or departures of 
peers are viewed as independent events. However, one peer 
usually participates in a swarm several times in real systems. 
Therefore, some of peer behaviors are highly related. One of 
the reason is users may not remove the task or delete the file 
immediately after finishing the downloading. Then users may 
close the BitTorrent client. The task will start again when users 
run the client next time. 

To confirm our analysis, we count every peer’s participation 
times in each swarm. Figure 1 shows the CDF distribution of 
the participation times which combine all result of swarms. 
Since the participation times are highly skewed, we plot x- 
axis in logarithmic scale. We have two conclusions about the 
participation time. The obvious one is most peers participate 
in swarms repeatedly. More than 70 percent peers participate 
in swarm at least twice, which offers a strong evidence for our 
conclusion. The second one is the distribution of participation 
times is exponential. In Figure 1, the distribution can be fitted 
as a straight line very closely except some abnormal peers. 
The most extreme peer participates in one swarm 2500 times 
in the one month trace. In other words, it participates in the 
swarm about 80 times a day on average. However, abnormal 
peers are seldom and their influences can be ignored. 

Under the circumstances that peer behaviors are related 
in a long term view, previous assumptions are not suitable 
for describing the long term characteristics. We regard the 
peer lifecycle as basic measurement object. That means the 
behavior of creating and deleting task in BitTorrent client 
constitutes the churn of swarm. More important, each specific 
peer lifecycle is independent from others and we can easily 
depict swarm evolution by their statistical property. 

We define the start of a peer lifecycle as task arrival event 
which means a new downloading task adds to the swarm. 
Figure 2 is the task arrival rate of a specific swarm. We 
count the number of new peers in every hour after the swarm 
birth and the x-axis is peer arrival time relative to the birth. 
Specifically, we use the average rate to denote that there is 
only one new peer arrive in several hours. It’s clear that 
task arrival rate decreases as time elapses. The reason can 
be easily understood, most peers participate in the swarm as 


measurement, we propose a lifecycle based evolution model in 
Section III. In Section IV, a new metric is used to analyze the 
evolution trend. We also validate our model with real swarms 
in this section. Then we discuss the influences of different 
factors in Section V. Finally, we conclude the paper. 

II. Related Works 

Peer-to-peer content distribution system is popular in recent 
years and many publications focus on this area. In [6] and 

[7] , the authors measured the BitTorrent system and gave 
a first view of it. Based on their pioneering works, Qiu 
et al. proposed a simple fluid model to describe BitTorrent- 
like system and studied the steady-state network performance 

[8] . Guo et al. analyzed the performance of BitTorrent-like 
systems especially in the situation of multiple torrents [9]. 
They improved the fluid model and analyzed the interaction 
between torrents. Motivated by their work, Yang et al. found 
that there is no incentive for seeds. They designed a cross 
torrent method to encourage seeds to stay around [3]. Multiple 
torrent environments also influence the content availability. 
Menasche et al. modeled the content availability and analyzed 
how bundling influences it [2]. Kaune et al. also focused 
on long term content availability. They performed widespread 
measurement and found that seed is a key factor of availability 
but not the sole factor [4]. Then they tried different ways to 
increase the availability and compared their effects [10]. 

III. Task Based Evolution Model 

There were extensive measurement studies for peer-to-peer 
systems. However the specific result in lifecycle view was rare. 
In order to seek long term characteristics such as availability 
or lifespan, we look swarm at a bird view. According to the 
new view, we revisit the swarm evolution in this section. 

A. Experimental Setup 

For the purpose of getting recent characteristics of peer-to- 
peer systems, we cooperate with an administrator of tracker 
site which is one of the biggest BitTorrent systems among 
Chinese universities. Our analysis in this study is based on 
the tracker trace of this system. The trace contains all peer 
requests that post to the tracker from June 1, 2010 to July 
4, 2010. In the trace, there are 447141 swarms and 843242 
peers all together. We identify each peer by passkey which 
is the unique ID assigns to all peers in this system. The 
peer requests also include time, uploaded amount, downloaded 
amount, left amount (how many bytes are needed to fulfill the 
downloading) and event that indicates peers’ participation and 
departure. We identify a new peer when it posts a request 
with “started” event and left amount equal to the file size. If 
a peer posts a “stopped” event and sends no further “started” 
event, we believe it departs from the swarm permanently and 
finishes its lifecycle in this swarm. Although the criterion of 
peer departure introduces errors, it can be ignored when the 
trace is long enough. Specially, we remove all peers which 
participate in swarm before our trace. 
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Fig. 2. The task arrival rate for a specific swarm 
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Another statistic of peer lifecycle is the task duration. Figure 
4 presents the complementary CDF distribution of all peers’ 
task durations. Task duration that includes several peer online 
sessions captures how long tasks remain in swarm. For it was 
mentioned that peer online/offline session follow exponential 
or weibull distribution [11], we suppose task duration obey 
weibull distribution [12] 

-(^) k 


F(x) = l-e~ 


⑵ 


Fig. 3. Aq and r for each swarm 


soon as possible. In order to check the nature of arrival rate, 
the y-axis is in logarithmic scale. Figure 2 shows consistent 
trend that arrival rate can be fitted as a straight line, which 
strongly suggests the number of new peers to the swarm 
decreases exponentially with time. However, there is special 
phenomenon in our trace. Some swarms have burst peers after 
the birth, which may caused by the release of the expectative 
file. Although the phenomenon surly biases the evolution 
around the swarm birth, the long term evolution trend will 
keep steady when burst peers leave the swarm. 

To validate our conjecture in all swarms, we use the least 
square method to fit the arrival rate for each swarm in 
the tracker trace. We assume the task arrival rate obey the 
exponential function 


where Ao is the arrival rate when swarm was born, and r is 
the attenuation parameter of arrive rate. Figure 3 is our fitting 
results. The r in some swarms are very big, which hints us 
their A(t) are steady other than decreasing. According to our 
manual analysis, these swarms can be categorized into two 
groups. One is long lived swarms which are born long before 
our trace. So we only capture the part that few new peers 
participate in and their X(t) decrease very slowly. The other 
group contains cold swarms that are in the same situation. In 
the figure, most swarms have smaller r, which conforms our 
conjecture. 


Specially, we do not distinguish seed and leecher explicitly 
for the transformation from leecher to seed is a part of peer 
lifecycle. Peer lifecycle may terminate in three situations. First, 
peer may leave the swarm without finishing the downloading, 
which leads to short task durations. Second, peer may leave the 
swarm when it just finishes downloading. In the last situation, 
peer serves as seed for a period. Therefore, task duration could 
reflex the properties of different kind of peers. In Figure 4, 
we fit the trace data with weibull distribution. Although the 
fitting has small bias, our fitting captures the trace perfectly 
when duration is below 300 hours. The bias is caused by the 
limitation of experiment. As mentioned in Section III-A, the 
duration will be cut off if it does not terminate at the end 
of tracker trace. So the proportion of long lived tasks in our 
experiment data is less than the fitting results. However, less 
than 5% durations are cut off, which has only a modest effect 
on the result. 

According to above measurements, we propose a lifecycle 
based churn model that aim to depict the long term pattern 
of swarm. In a specific swarm, there are n participated peers 
who keep the task information. Each peer is either alive or 
dead at time t. Peers alternate their status of alive and dead 
while the task is alive. Once the task is removed, peers stay 
in dead status permanently and its lifecycle ends. We assume 
the behavior of each peer does not affect other peers and their 
lifecycle is independent. From the born of task to dead, a peer 
has a certain probability of online. The probability is called 
asymptotic availability [6], [13] and can be calculated from 
the mean time of online/offline sessions when peer stay in the 
swarm for long time. We use a to denote the peer availability: 

Ton 门、 

a = (3) 



task time (hours) 

Fig. 4. CDF of all peers’ task durations 
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C. Active Peer Number 

Previous studies model swarm evolution by peer arrival 
rate and constant leave rate. However, peer leave rate should 
decrease while arrival rate decreases, especially in lifecycle 
view. We use duration which is a more nature statistic instead 
of leave rate in our model. 

As stated in our chum model, a peer participates in swarm 
and stays for some time that follows weibull distribution. We 
assume the peer participates in time x and t is the current 
time (x < t). Whether the peer is still in the swarm is 
undetermined, for the task duration is random. According to 
the duration distribution, we can get the possibility that one 
peer participates in x and it is still in the swarm now: 

Palive(X,t) = Pr(X > t\X > X) 


1 — Pr(X > t) _{ ■ 丄)王 
- = e 、 p J K ^ J 

1 - Pr(X > x) 


(4) 


Considering such scenario, A(t 。） peers participate in the 
swarm at to and A (to) Pa 如 e (亡 o, 亡 ） of them are still in the 
swarm. We cumulate scenarios of every moment from swarm 
birth to now (t) to get the number of active peers: 


N(t) 


P a n ve {x^ t)dx 


aAoe 


_( 去 ) 



(5) 


Equation 5 hints us there are five factors influence evolution 
trend in long term view, a and Ao have simple effects on N(t) 
while n，k and r have more complex effects. We will discuss 
their effects in later section. 

IV. Experimental Evaluation 

In this section, we seek evidences for the correctness of 
our model in real trace. However, we face two challenges in 
validating our evolution model. 

First, standard evaluation criterion such as coefficient of 
determination are not suitable for evaluating evolution models. 
Most evolution models ignore the time-of-day effects for it 
does not influence main conclusions. Figure 5 presents a 
typical swarm evolution with time-of-day effects. The peer 
number fluctuates visibly from swarm birth to trace end with 


24 hours interval. According to the situation in Figure 5, the 
noticeable fluctuation influences standard evaluation criterion 
greatly. Besides time-of-day effects, burst peers also bias the 
model. Our model cannot handle abnormal events for it’s based 
on statistical properties of swarm. Some attractive swarms 
draw crowded peers to participate in it right after the swarm 
birth, which biases out fitting of task arrival rate. Burst peers 
not only appear in the swarm birth but also could appear in 
the middle of swarm when some special events happen. In 
summary, time-of-day effects and burst peers make standard 
evaluation criterion meaningless. 

Second, lifespan is also not suitable for evaluating the 
model. Although lifespan has explicit meaning that is useful 
for further conclusions, it is hard to obtain from real trace. 
The main reason is there is no operable dead criterion. In 
ideal situation, swarm die when all seed left permanently. The 
swarm should be marked as alive, if a cold swarm has no active 
seed now and an inactive seed will come back one year later. 
In real trace, we do not know whether a seed will come back. 
However, tracker operator or swarm creator usually removes 
cold swarms manually long before they really die theoretically. 
Therefore, we cannot get the real lifespan from trace and use 
it as an operable evaluation criterion. 

A. Half-life of Swarm 

In this section, we give a general metric for evaluating 
swarm evolution trend, based on the half-life of active peer 
number. 

Generally speaking, the peer number of a swarm increases 
quickly after the birth. Then the number reaches the maximum 
which is a unique and determined characteristic in all swarms. 
After reaching the maximum ， peer number is decreasing grad¬ 
ually until the operator kill the swarm or no seed will return. 
A half-life of swarm is defined as the time it takes for the 
peer number to decrease to one half of the maximum. In 
order to evaluate evolution trend more precisely, we extend 
the definition as follow: 

HL{x) = N~\2 - x n max ) - N-U ⑹ 

With the help of the half-life metric, a period of swarm 
activities is enough for evaluating rather than obtaining the 
whole activities of swarms. As a specific example, we plot our 
model result in Figure 5 and mark the maximum and half-life. 
Our metric has clear meaning and can be obtained from trace 
easily. Therefore, the combination of maximum and half-life 
is effective and operable in reflecting swarm evolution trend. 

B. Model Evaluation 

In this section, we validate our model by the half-life metric 
and compare it with another evolution model mentioned in 
paper [9]. To our best knowledge, fluid model is the most 
famous evolution model for peer-to-peer swarm. However, it 
is based on peer arrival and leave rate, which is a different 
view from ours. In order to compare two models, we compute 
peer/task arrival rate and other parameters in each swarm and 
calculate the evolution. Specially, fluid model gives seed and 



Fig. 5. The evolution of a typical swarm 
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TABLE I 

Correlation coefficient between factors and metrics 



a 

入 0 

T 


k 

Maximum 

0.03 

0.74 

-0.15 

0.15 

0.09 

One Half-life 

-0.15 

-0.05 

0.08 

0.56 

-0.28 


characteristics while fluid model is more suitable for short 
term ones. This is caused by burst peers in flash-crowd which 
is the beginning stage of a swarm. Because fluid model takes 
all participations as independent event and burst peers may 
participate in repeatedly for a period, burst peers impact peer 
arrival rate much longer than task arrival rate. While burst 
peers leave the swarm, the bias of the fitting grows bigger. In 
another words, burst peers conceal the long term nature of peer 
behavior pattern. Our model that uses lifecycle view ignores 
the influence of burst peers, which introduces acceptable biases 
in early stage but reveals more precise long term evolution 
trend. 

Besides our model reveal more detailed peer behavior such 
as peer availability and task duration while fluid model only 
use peer leave rate as simplification. Thus, our model sheds 
more light on how to extend swarm lifespan and has the ability 
of explaining existing mechanism. 

V. Discussion 


Fig. 

leecher number separately instead of the whole peer number. 
We make needed derivation of fluid model to obtain the whole 
peer number directly. 

Figure 6 presents the maximum of each swarm along 
with two model’s predictions. In the figure, each swarm is 
represented by a single point whose x-axis value indicates 
the real maximum in our trace and y-axis value shows the 
model prediction. So a point that locates in the line oi y = x 
means a perfect prediction. According to the results, both fluid 
model and ours have the ability of predicting real maximum. 
Specially, fluid model’s perditions are slightly more precise. 
The reason for that is fluid model takes burst peers as normal 
peer arrival pattern and our model ignores its influence. 

Our model can fit the real trace more closely while time 
elapses and the influence of burst peers weaken. There are 
obvious evidences in Figure 7 that shows the half-life of 
two models. In order to evaluate more detailed evolution, we 
choose different number of half-lives that range from 0.1 to 
2.0 with 0.1 intervals. Although the larger half-lives choose 
the longer evolution is evaluated, the maximum of half-lives 
only reach 2.0 for the limitation of our trace. For a specific 
number of half-lives, we compute the squared error of model’s 
prediction in every swarm and show the average of squared 
error in Figure 7. It’s obvious that our model gains better 
result than fluid model in different part of swarm evolution 
after flash-crowd. 

In summary, our model could reveal more precise long term 


In this section we analyze the influence of different factors 
appear in our model and show their effects in real trace. Then 
we analyze two mechanisms used in real systems based on 
our model. 

A. Effects of Different Factors 

According to Equation 5, all factors can influence the 
maximum. It is easily to know that the population is influenced 
by a and Ao linearly. Although they influence the maximum 
value linearly, the time that peer number reaches maximum 
will keep steady no matter how they change. In another aspect, 
only [i, k and r influence the half-life. We assume that the peer 
number reaches maximum in time to and the number decreases 
to one half of the maximum in time t\. Then we can get the 
half-life as: 

HL(l) = t 1 -t 0 . (7) 

According to the definition of half-life, we can get the below 
equation: 

N(h) = 1 = e~^ k f* 1 e(f ) fc _ 擎 

JV(t 0 ) 2 一 e -Cf) k f*o e (f) fe -f 

By solving Equation 7 and 8, we can know that HL{1 )= 
Similarly, we could extend the result to 
HL{x) = f(x, to, r, k). Because to is independent of a 
and Ao, we finally get HL(x) = /(x, \i^ r, k). 

In order to gain deeper understanding of the effects, we 
inspect the situations in real swarms. Table I is the Pearson 
correlation coefficient which could show us the linear depen¬ 
dence between the factors and the two metrics. For each swarm 
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7. The prediction bias of different half-lives 
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has its own properties, we can hardly find a series of swarms 
that have the same properties except only one specific property. 
So we cannot judge two variables as independent when their 
Pearson correlation coefficient is closed to 0. However, we 
can definitely find positive or negative correlation of two 
variables when the correlation coefficient is closed to 1 or 
-1 respectively. In Table 1, the correlation coefficient between 
Ai and maximum is closed to 1, which hints us that increasing 
Ao could significantly increasing the maximum, /j, is another 
factor that has positive influence on swarm evolution in real 
trace. We can extend the task duration (/j) to slow down the 
decreasing of evolution. In summary, the two factors influence 
the evolution significantly no matter what the other factors. 

B. Existing Mechanisms 

There are two popular mechanisms that extend the swarm 
lifespan used in practical systems. We try to seek which factors 
they affect according to our model. 

In paper [2], Menasche et al. analyze the mechanism of 
bundling. Bundling technique combine some related files into 
one big file. The big file is shared by a big swarm which in¬ 
cludes all peers that interest in original files. So the task arrival 
rate of the big swarm can be viewed as the sum of all the task 
arrival rates in original swarms. So the mechanism increases 
the Ao greatly if we assume original swarms have the same 
r. Besides, this mechanism also changes other factors slightly 
for original swarms have similar but different properties. We 
can admit the differences for simplification. According to our 
model, the mechanism could increase the maximum of swarm 
and extend swarm lifespan. However, bundling forces all peers 
to download all files no matter whether they need all files. 
For the mechanism cannot deploy on all swarms, we could 
use recommendation system to increase the Ao of all swarms 
instead. 

SRE is another mechanism that can extend swarm lifespan. 
SRE is widely deployed in Private BitTorrent systems in 
which each peer has a unique account. SRE demands peers 
to upload specific amount data instead of forcing peers to 
download extra files. In order to upload more data, peer 
has several optional ways. The first way is participating in 
the swarm more frequently or keeping online, which means 
increasing the peer availability. If the peer does not want 
to keep online, it can keep the task alive. So the second 
way is extending task duration. However, these ways cannot 
meet the requirement easily. It’s reported in paper [5] that 
peers compete for the chance of uploading. So the current 
SRE mechanism is not friendly for extending swarm lifespan. 
According to our model, although peers unable upload much 
data, their efforts could extend the lifespan. Peers make 
contributions to the swarm but they do not benefit from it. 
In such some peers may behave abnormal. Abnormal peers 
can selectively participate in new born swarms that need much 
upload bandwidth and upload data easily. When their upload 
amount meets the requirement, they can go offline and will 
not contribute any more. The abnormal behavior contributes 
nothing except increasing upload bandwidth in the early stage 


of swarm. We suggest SRE mechanism adds peer availability 
and task duration into the requirement and give corresponding 
benefit to the peers. 

VI. Conclusion 

Peer-to-peer system is very powerful for the dissemination 
of popular content. Besides high downloading speed, people 
expect the system could serve longer. However, few litera¬ 
tures can be found in the field. Previous works ignores the 
relationship between peer behaviors, which biases the long 
term swarm characteristics. We combine related behaviors to 
a single lifecycle and measurement peer-to-peer system in the 
lifecycle based view. Based on our measurement, we model 
the swarm evolution to show the long term characteristics. 
According to our half-life based metric, we compare our model 
with the fluid model. The results show that our model could 
predict the long term evolution more precisely. We then discus 
the influences of different factors and analyze their effects in 
two popular existing solutions. 
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基于网络拓扑的网络安全事件宏观预警与响应分析 
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摘 要： 为及早发现并有效控制大规模爆发的网络安全事件的发生发展，本着主动测量和异常检测相结合 
的思路，设计实现了大规模网络安全事件协作预警系统，重点探讨了基于聚类算法的宏观预警分析、控制点 
选择、控制建议生成等关键技术，经可视化处理，取得了较好应用效果. 
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Network security events macro alert and response analysis 
technology based on network topology 
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Abstract : Network security events such as worms can greatly compromise the Internet. To date, how to quickly 
detect and effectively control the emergence and development of such events has become one of the focuses of re¬ 
search among network security experts at home and abroad. The research includes combining active measures with 
anomaly detection, implementing a large-scale network security event cooperative alert system，focusing on macro 
alert analysis，choosing a control point, creating control suggestions, etc. After the process of visualization, it ex¬ 
hibits preferable application effects. 
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蠕虫等大规模爆发的网络安全事件的发生对 
Internet 安全构成了巨大威胁 . 同时，也唤起了研 
究者对此类问题的密切关注，如何及早发现并有 
效控制蠕虫等网络安全事件的蔓延，已成为目前 
国内外网络安全专家的研究目标 . 

本文本着主动测量和异常检测相结合的思 
路，设计实现了大规模网络安全事件协作预警系 
统，旨在对大范围爆发的网络事件进行宏观预警， 
并提出控制建议 . 

1协作预警系统整体结构设计 

系统结构如图 1 所示 . 各自功能 如下： 
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网络安全事件检测点，分布放置于多个网络 
出人口，负责检测本地网络的异常事件，并将引发 
相关的主机地址、事件类型、严重程度等报警信息 
发送至综合分析子系统，同时写人数据库 . 



拓扑发现子系统，负责对全局范围内的网络 
进行拓扑信息收集，并生成路由 ip 级的网络拓扑 
连结关系图，该过程应保证低负荷、无人侵性、图 
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生成的高效性.最后，将网络拓扑信息发送至综合 
分析子系统、可视化子系统. 

综合分析子系统，汇总同一时间段内所有检 
测点上报的报警信息，然后将所有报警信息分类， 
调用各类报警的分析引擎进行分析处理,最后将 
分析结果发送至可视化子系统.以蠕虫为例，找出 
网络事件受害主机地址对应的子网信息,然后对 
网络事件的宏观分布状况进行聚类分析，并根据 
分布密度、危害程度等给出警告级别，最后基于网 
络拓扑提出异常事件控制 建议: 在哪控制，如何控 
制. 

可视化显示子系统，基于网络拓扑信息和网 
络事件综合分析结果，显示各级网络拓扑图、网络 
事件宏观分布图、控制点分布图等，以便于网络管 
理者进行决策. 

2关键技术 

主要采用基于密度的聚类算法 [|] 分析安全 
事件在网络拓扑上的分布 状况; 采用基于 - 中 
心点 [1 ] 的方法分析实施控制的关键路由器，旨在 
提出基于网络拓扑的异常事件的控制建议. 

2.1 基于聚类的宏观预警分析技术 

综合分析子系统除了要将所有的报警信息完 
整地反馈给管理员以外，还需要分析这些报警信 
息所反映的异常状态在拓扑图上的分布情况，即 
异常路由器的集中区域，以帮助管理员更清楚地 
认识异常的扩散情况并找到最适合的控制方法. 

2. 1. 1名词定义 

定义1 密度聚 类:将 簇看作是数据空间中 
被低密度区域分割开的高密度区域, DBSCAN 和 
OPTICS ⑴是其代表算法. 

定义 2 路由器间 距离: Dist(~‘） =路由器 Z 
和 ） 之间的跳数. 

定义 3 路由器划分:对路由器集合 F, 称满 
足 F = R U F 2 U … U F„, \/ i,j e n 

Vj = 0 的子集集合 ，、，••• VJ 为路由器划分. 

定义 4路由器密度划 分:采 用密度聚类算 
法得到的路由器划分. 

2.1.2 算法描述 

FIRSTCLUSTER :第 一个簇的编号，以后逐个 
递增1 

UNCLASSIFIED: 标识路由器未处于任何簇 

RouteSet :路由器集合 

ExpandCluster ( route ， RouteSet , Clusterld ) : 
根据路由器间距离从 RouteSet 中发现和 route 处 
于同一个簇的所有路由器，并用 Clusterld 标识. 


Begin 

Clusterld = FIRSTCLUSTER 
for each route in RouteSet 

if route is UNCLASSIFIKI) then 

ExpandCluster ( route ， RouteSet ， Clus¬ 
terld) ; 

Cluserld + + ; 

End if 
End for 

End 

哈工大网络拓扑结构自动发现系统 [2] 于 
2003年11月13日在北京对 CERNET 进行拓扑 
数据采集，对43414台主机 IP 进行探测，覆盖 IP 
数量约5553665台，共探测到1453台路由器， 
1681条链接.本文提出的所有算法的应用效果都 
是以这次测量得到的教育网拓扑结构为背景. 

应用上述算法，图2给出应用效果.图2中每 
个节点代表一个路由器，其间连线代表路由器间 
的连接关系.黑色节点和灰色节点都代表异常路 
由器，根据集中区域的不同，为它们分配了不同的 
颜色. 

2.2 控制点选择技术 

控制点选择技术的目的是为管理员提供一种 
限制异常扩散的手段.该技术利用拓扑信息，选取 
和异常路由器相关的控制路由器.根据选取策略 
的不同，分为精简控制路由器集合和关键路由器 
集合,前者由所有和异常路由器直接相连的路由 
器组成，后者由对网络传输影响最大的路由器组 
成，这两种路由器集合都可以限制异常扩散，只是 
前者更注重准确性，后者更注重效率. 

第一种.•求精简控制路由器集合，只要控制该 
集合则可以限制异常的进一步传输. 

定义 1 异常主机和异常主机 集合： 异常主 
机 h 指已经被感染而且正在感染他人的主机，用 
SickH(/i ) 表示.异常主机集合 /IWS = U I 
SickH (/ i )). 

定义 2 路由器网关：主机/I的路由器网关 
是路由器 r 当且仅当 r 是 /i 接人 Internet 的第一跳 
路由器，用 r = RouteGate(Zi ) 表示. 

定义 3 异常路由器和异常路由器集合:异 
常路由器指任意路由器 r，r 是异常路由器当且仅 
当存在主机 /i，SickH(/i) 而且 r = RouteGate(Zi) ， 
用 SickR(r ) 表示•异常路由器集合= !rl 
SickR( r) }, 

定义 4 相邻路 由器: 路由器 n 和「 2 相邻当且 
仅当/和直接相连，用 AdjoiningCr , , r 2 ) 表示. 
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定义 S 控制路由器集合和精简控制路由器 
集合：控制路由器集合 C/fS =丨 r I 彐 r ,， 
SickR(ri) , Adjoining( r,r, ) }. 精简控制路由器集 
合 RCRS = |rl r e CRS，r 辛 ARS \. 

结合上述定义，给出发现精简控制路由器集 
合的算法 

Begin 

Translate AHS into ARS by RouteGate 
Create CRS with all adjoining routers of ARS 
Get RCRS from CRS — ARS 


[1,«] ,i >j\,s = 11 S; I ， Vi e [1,«] !• 

定义 3 路由器最优划分 :使评 估公式的值最 
小的路由器划分称为路由器最优划分.即满 足：子 
集的大小不能 太大； 子集的数目尽可 能小； 子集之 
间的边尽可 能少； 子集的大小尽可能平均分配. 

结合上述定义，给出发现路由器最优划分的 
近似算法，进而得钊关键路由器.具体做法是通过 
聚类的方法找出拓扑图的高密度区域，作为一个 
近似路由器最优划分，然后得到联系各个高密度 
区域的路由器，即关键路由器.这里采用路由器之 


End 

应用上述算法，图 3 给出应用效果.黑色节点 
代表异常路由器，灰色节点代表控制路由器，很显 
然只要在灰色节点上限制黑色节点的访问，就可 
以限制异常的传播. 

第二种 :发现 关键路由器.根据网络拓扑的特 
点，分析拓扑图，找到对网络传输影响最大的路由 
器集合.当事态比较严重的时候可以先控制这些 
路由器，然后再逐一处理异常路由器. 

定义 1 拓 扑图： r = (y)，y 代表路由器 
的集合 J 代表路由器之间物理连接的集合. 

定义 2 路由器划分 s 的评估公式； 

表示一个路由器划分的子集个数= \( m , n ) I 
Vm e 5 ； , Vre e Sj ,( m , n ) g E \ ,e = \ e y , \/iJ £ 


间的跳数作为判断路由器之间距离的依据. 

Begin 

divide routes into different parts 
for each edge in E 

if edge ' s vertexes are in different parti¬ 
tions then 

regard both vertexes as critical routes 
End if 
End for 
End 

应用上述算法，图 4 给出应用效果.黑色节点 
代表关键路由器（根据算法教育网总共有 55 个 
关键路由器，为了明显起见只标识其中6个），很 
显然关键路由器对网络整体的连通性影响很大. 



图2基于聚类的宏观预警分析技术应用效果图3精简控制路由器算法应用效果图4关键路由器算法应用效果 


2.3 控制策略生成技术 

路由器具有 Ac Cess List [3] 功能，用以拒绝某些 
IP 的通过.例如当需要在路由器上禁止已经被感 
染的机器 192. 168. 0. 10 发送有害信息，只需要执 
行 access - list 100 deny ip 192. 168.0. 10 
255. 255. 255. 255 any 命令. 

在 IP 很多的情况下，为每个 IP 执行一次该 
命令管理员的负荷很大， AccessList 支持网络地址 
的功能，因此，可以将同一个网段的 IP 聚合起来， 
用一条命令完成对这些 IP 的禁止，例如，下面的 
命令就可以禁止网络地址 192. 168. 0. 0 网络掩码 
255. 255. 255. 0 的 256 个主机通过路由器. 

access - list 100 deny ip 192. 168.0. 0 


255. 255. 255. 0 any 
2.3.1 名词定义 

定义 1待聚合主机集 合:控 制策略生成技 
术的操作对象，用表示. 

定义 2掩码长度：网络掩码二进制表示的1 
的最大个数.网络掩码二进制不存在1位于0后 
面的情况. 

定义 3网段大小 :2 的 32 减去网段掩码长 
度次幂. 

定义 4网段实际 大小： 中属于该网段的 
主机个数. 

定义 5网段合并 探测： 如果满足下面 3 个 
条件则称网段可以合并. 
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a ) 两个网段掩码长度相同，记为 

b) 设两个网段地址分别为 n etl ， ne t2, 要求 
((netl XOR net2 ) 》 （ 32-k)) Equal 1. 

c ) 两个网段的实际大小之和大于阀值. 

定义 6 网段合并：两个网段地址分别为 

netl ， net 2, 掩码长度 A ， 合并结果网段地址为 net 
= netl AND N 0 T ( l 《（32- fc )) ，该网段掩码长 
度为 k-L 
2.3.2 算法描述 

阶 段一: 设定初始网段大小为256,利用哈希 
函数将主机地址映射到网络地址，并统计映射到 
每个网段的主机数目.哈希函数/为 ：（ 主机地址 
AND 255. 255. 255. 0 )MOD 哈希表大小. 

阶段 二：设 定数组 C [ 25 ], C [ i ] 代表 
首先将阶段一中哈希表的所 

i 32 -i 

有项加入到 C [24] 所代表的链表中，然后网段合 
并探测，如果可以则执行网段合并，如将 
1. 1.3. 0/24和 1. 1.2. 0/24合并为 1. 1.2. 0/23,依 
此类推直至无法合并 （ C [0] 会成为一个边界). 

阶段 三:由 C [0] 开始输出所有的合并结果， 
当处理到(: [24] 时注意将达不到阀值要求的网 
段的主机地址输出，而不是网络地址. 

算法 如下： 

HostSet : 待聚合主机集合 
/:哈希函数，用于映射主机地址到网络地址 
NetHash : 用以暂存映射的网络地址的哈希表 
INITMASKLEN : 初始掩码长度，初始网段大 
小为2 32 ' INI ™ ASKLEN 

CanMerge : 表示网段合并测试 
Merge: 表示网段合并 
Begin 

insert each host in HostSet into NetHash using 
hash function f 

attach each net in NetHash on C [ INITMASK¬ 
LEN] 

for i from INITMASKLEN to 1 

merge any netl and net2 in C [ i ] if Can- 
Merge (netl, net2) 

End for 

for i from 0 to INITMASKLEN 
print each net in C[i] 

End for 

End 

该技术以损害部分 ip 地址的正常访问为前 
提，提高在危急时刻管理员的反应速度.当然在条 


件允许的情况下管理员可以一条条输人有害 ip 
地址，以保证正常 ip 地址的访问 . 

3相关工作 

以簇为单位划分图的方法在理论上有详细的 
证明 [4] ，而且在动态路由协议和拓扑发现方面都 
体现出其价值 [5 ~ 8] . 文献 [5 ] 针对无线网络提出 
一种基于簇的路由协议，该协议的基本思想是将 
拓扑图分割成互相重叠的簇集合，然后选出联系 
各个簇的边界主机，使用最短路径算法完成路由 
表的构造，可以通过边界主机对各自所属族的广 
播完成路由表的升级 . 同样针对无线网文献 [6] 
利用无线网是一个广播通讯媒介的事实，利用一 
种染色算法将拓扑图分割成不同的簇，并从中发 
现主机集合作为通讯渠道，从而有效地分发和汇 
集消息 . 文献 [7 ] 认为现有的以自治域为单位的 
拓扑图太简单而用路由器为单位的拓扑图太复 
杂，提出以簇为单位描述网络拓扑,后者的复杂程 
度介于前两者之间 . 文献 [8 ] 提出用簇的方式分 
析站点的日志信息，发现不同用户群，帮助 ISP 管 
理者完成对代理服务器的布置，而且可以发现恶 
意访问者和恶意代理 . 
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□ □□，□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□，□□□□□□□□□□ 
□ □ □ • 

□□□□□□□□□□□□□□□□□□□□ 
□ □□□□，□□□□□□□□□□□□□□□□， 
“□□□□□□，，□□□□□□□□□□，□□□□ 
“□□□□，，□□□，□□□□□□□□□□□□□ 
□ □□□□□□□，□□□□□□□□□□□□□ 
□ □□□•□□□□□□□□□□□□□□□□□ 
□ □□•□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□，□□□□□□□□□□□□ 
□ □□，□□□□□□□□□□□□□，□□□□□ 

□ □□□□□□□□□□•□□□□□□□□a" 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □ □ □ . Hamilton 141 □□，□□□□□□□□□ 

□ □□□□□□□□□，□□□□□□□□□□□ 
□ □□□□• 

□ □□□□□□□□： (DD □□□□□□□ 
□ □□□□□□□□□□□，□□□□□□□□□ 
□ □□□□•□□□□□□□□□□□□□□□□ 
□ □□，□□□□□□□□□□□□□□□□/□□ 

□ □ ； (2)Q □□□□□□□□□□□□□□□□ 

□ □□□，□□□□□□□□□□□□□□□□□ 
□ □•□□□□□□□□□□□□□□□□□□□ 

□ □ □□ ； (3)D □□□□□□□□□□□□□□ 

□ □□□□□□□，□□□□□□□□□□□□□ 
□□□□□□• 

□ □□□□□□□□□□□，□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□•□□□□□□□□□□□□□□□ 
□ □□，□□□□□□□□□□□□□□□□□□ 
□ □□□□•□□□□□□□□□□□□□□，□□ 
□ □□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□，□□□□□□□□□□•□□□ 
□ □□□□□□□□□□□□□□□□□□□□ 
□ •□□□□□□□□□□□□□□□□□□□□ 
□ □□，□□□□□□□□□□□□□□□□□□ 
□ □□□□□•□□□□□□□□□□□□□□□ 


2009 □ 


□ □□□□□□□□□□□□□，□□□□□□□ 
□ □□□，□□□□□□□□□□□•□□□□□□ 
□□□□□□□□□□□□□□□□□a- 

2 □□□□□□ 

□ □，□□□□□□□□、□□□□□□□□□ 
□□□□□□□□□□□□□□□□，□□□□□ 
□□□□□□□•□□□□□□□□□□□□□a 
□ □ □ • 

(DD□□□□□□□□□□ 

□ □□□□□□□□□□□□□□ 
□ □、□□□□□□、□□□□、□□□□、□□□□ 
□，□□□□□□□□□□•□□□□□□□□□□ 
□□□□□□□□□□，□□□□□□□□□□□ 
□□□□□•□□□□"□□□□□□□□□□a 
□□□□□□□□□□□□□□□□□□•□□a 
□□□□□□□□□□□□□□□□□□□□a- 

□ □□□□□ ， Schneier 171 □□□□□□□□□ 口 
□、□□□□□□□□□□□□□，□□□□□□□ 

□ □ □ □ . Moore 181 □□□□□□□□□□□□□ 

□ □□□□□□□□□□□□，□□□□□□□□ 

□ □□□□□□□□□•□□□□□□，Dacier □ 

□ [ 9I □□□□□□□□□，□□□□□□□□□□ 
□□□□□□□□□□□□□□，□□□□□□□ 

□ □□□•□□□□□□□□□□□□□□□□a 

□ □□□□□□□□□□□ -OrtaloD □ 1101 □ □ □ 

□ □□□□□□□□□□□□□□□□□□□□• 

□ □□□□□，Phillips □ Swiler □□□□□□□ 

□ □□□□□□ 1111 ，□ □ □□□□□□□□□□□ 
□□□□□□□□□□□□•□□□□□□□□a 
□□□□□□□□□□□□□□□□，□□□□□ 
□ □□□□□□□□□□□•□□□□□□□， 
RamakrishnanD 

□ □□□□□□□□□□□□，□□□□□□ UNIX 

□ □□□□□□□□□. Ritchey □ Ammann 1131 □ 

□ □□□□□□□□□□□□□□□□□□□□□ 
□ □□•□□□□□ [1] □□□□□□□□□□□□ 
□ □□□□□□□□□□□□□，□□□□□□□ 
□ □□□□□□□□□□□□□□□，□□□□□ 
□□□□□□□□□□□a- 

(2)D □□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□，□ 
□ □□□□□□□□• Lee □ 2002 □□□□□□□ 

□□□□□□□□□□□□□□['□□□□□a 


□ □ □ □ □ 
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□ □□□□□□□□□□□□□•□□□□□□□ 
□ □□□•□□□□□□、□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□•□ 

□ [15] □,□□□□□□□□□□□□□□□□□ 

□ □□，□□□□□□□□□□□□□•□□□□□ 
□ □□□□□□□□□□□□□ [161 •□□□□□□ 
□ □□□□□□□□□□，□□□□□□□□，□□ 
□ □□□□□□□□□□□□□□•□□□□□□ 
□ □□□□□□□□□□，□□□□□□□□□□ 
□□□□□□□□□• 

(3) □□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□，□□ 
□□□□□□□□□□□□□，□□□□□□□□ 

□ □□□□□□□□•□□□□□□□，1954 □ 
Haywood" 71 □□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□•□□□□□□□ 
□ □ [1S， . □ □□□□□□□□□□□□□□□， 
1997 D » Sy vers on 1191 □□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□• 1997 

□ Burke 12q □□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□• 2002 □ , Lye □ 
Wing [21] □□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□ .2003 □ ， Xu [221 □ 

□ □□□□□□□□□□□□□□□ DDoSQ □ □ 
□，□□□□□□□□□□□□□• 2003 □ ， Liu 125 

□ □□□□□□□□□□□□□、□□□□□□□ 
□ □，□□□□□□□□□□□□□□□□• 

□ □□□□□□□□□□□□，□□□□□□ 

□ □□□□□□□□□□□;□□，□□□□□□□ 
□ □□□□□□□□□□□□□□□□□;□□，□ 
□ □□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□a- 

□ □ □ □口 (network attack graph) 1 n| □□口 

□ □□□□□□□□□□□□□□□□□□□□□ 
□ □□□□•□□□□□□□□□□□□□□□□ 
□ □□□□□□□•□□□□□□□□□□□□□ 
□ □□□□□□□□，□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□•□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□ 
□，□□□□□□□□□□□□□，□□□□□□□ 


□ (□ )□ (network defense graph)□□ 1241 • 

3. 1 □ □ □ □ □ 

□ □1. □□□(□□□□□，Defense Graph, 

□ □ DODD □ 6 □ □ , DG= So, Sh 
&)，□ □ 5Q □□□□□，□□□□□□□□□□ 

□ □ □ □ n^SSXS ,，□□□□□□□□□ 

□ □SS, &□□□□□□□□□□ □ • Ss^S 

□ □□□□□□□□□，&□□□□□□□□，& 
□□□□□□□□• 

□ □□□□□□□□，□□□□□□□□□□ 
□ □，□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□•□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□/□□•□□ 
□ □□□□□□□□□□□□、□□□□□□、□□ 
□ □□□□、□□□□□□□□□ □□ □□ 
□ □□□□□□□□□□□□□□□□□，□□□ 
□ □□□•□□□□□□□□□□□□□□□□□ 
□ □□•□□□□□□□□□□□□□□□□□□ 

□ □□□□□，□□□□□□□□□ s d .n □ in 

□ □□□□□□□□□□ DG= (S, T, So, s s , Sa, 
Sd), S={A,B,C,D, E,F}，U D □□□□□□□ 

□ .& = "} ， &={F}，□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□，□ al ： 30Q □ 

□ □□□ «!□□□□□□□ ^<□□□ 5 , □□□ 

□ □ 30 (口 □□ □□□□，□□□□□□□，□□)， 
Sa={ 1, 2, 3}. Sd={si, sflD □□□□□□□ □ 

□□□□□□□□□□□□□□□□□□a- 



□ 1 □ □ □ □ □ 

3.2 □□□□□□ 

□ □□□□□□□□□□□□□□□□□□□ 
□ □□、□□□□□□□、□□□□□□□□□□□ 
□ □□/□□□□□□□□□，□□□□□□□ 2 
□ □•□□□□□□□□□□□□□□□□□□ 
□ □，□□□□□□□□□，□□□□□□□□• 


?1994-2014 China Academic Journal Electronic Publishing House. All rights reserved, http://www.cnki.net 




820 


□ □ □ □ □ 


2009 □ 


Vulnerability Database 
(CVE, NVD ， ICAT.... 

Vulnerability Scanner 
(Nessus, MBSA ， ISS,... 


Configuration Files 


Topology Information 


Firewall Configuration 
Sidewinder.Checkpoint, • 


Asset Information 

Exploits - ► Ordered Attacks - ► Optimal Defense 

□ 2 □□□□□□□□ 



Attack/De fense 
Cost/Bene fit Analysis 


Optimal De fense 
Strategy Selection 
on Attack- 
de fense Game 



3.3 □□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□/□□□□•□□□□□□□□ 
□ □□□□□□□□□□□□□□□，□□□□□ 

□ □□□□□□□□□，□□□□□□□□□□•□ 
□ □□□□□□□□□□□□□□，□□□□□□ 
□ □□□□□□□□□□□□□□□□，□□□□ 
□□□□□□□□□□□□□□□□□□a- 

□ □□□□□□□□： (DD □□□□□□□ 
□□□□□□□□□□□□□□□□□□□； 
⑵ □□□□□□□□□□□□□□□□□•□□ 
MIT □□□□□□□□□ 1271 ，□□□□□□□□□ 

□ □□□/□□□□□□•□□□□□□□□□□ 


□ □□□□□□□□□□□□□□□□□•□□ 
□ □□□□□□□□□□□□□□□□□□□□ 
□ □□□，□□ !□□•□□□□□□□□□□□ 

□ □ i2426| n □□□，□□□□□□□□□□□□□ 

□ □□□□，□□□□□□□□□□，□□□□□□ 
□□□□□□□□□□□□□□，□□□□□□□ 
□ □□□□□□□□ ， □□ 間 2D □. 


□ 1 □ □ □ □ 


□ □ 






旦 



AL 

Root 

□ 

□ 

□ 

□ 

□" 

百 

□ 


10 

User 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

5 

Data 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ □ □ 

3 

DOS 

□ 

□ 

□ 

□ 

□ 

□ 



2 

Probe 

□ 

□ 

□ 

□ 





0 5 

Other 

□ 

□ 







* 


□2 □□□□□□ 


□ □ 




□ 

J 




□ □ 

Ocost 


□ 

□ 

□ 

百 





□□□□□□□□□□□□ 

OL1 


□ 

□ 

□ 

□ 





□□□□□□□□□□□□ 

OL1 


□ 

□ 

□ 

□ 

□ 

□ 



□□□□□□□□ 

OL1 


□ 

□ 

□ 

□ 





□□□□□□□□□ 

OL2 


□ 

□ 

□ 

□ 

□ 

□ 



□□□□□□□□□□□□ 

OL2 


□ 

□ 

□ 

□ 





□ □□□□□□ 

OL2 


□ 

□ 

□ 

□ 





□□□□□□□□□ 

OL2 

n n n n n n 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

□□□□□□□□□□□□□□ 

OL2 

u u u u u u 

□ 

□ 

□ 

□ 

□ 

□ 



□□□□□□□□□□ 

OL3 


□ 

□ 

□ 

□ 

□ 

□ 

□ 


□□□□□□□□□□□□□□□ 

OL3 


□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

□□□□□□□□□ 

OL3 


□ 

□ 

□ 

□ 

□ 

□ 



□□□□□□□□□□□□□□□ 

OL3 


□ 

□ 

□ 

□ 

□ 

□ 



□□□□□□□□□□□ 

OL2 


□ 

□ 

□ 

□ 

□ 




□□□□□□□□□□□□□ 

OL3 


□ 

□ 

□ 

□ 





□ □□□□□ 

OL3 


□ 

□ 







* 

* 
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(□ □) 

□ □ 

□ □ 

□ □ 

Ocost 


□ □ □ □ 

□ □□□ ■□□□□□□ 

OL2 


□□□□□□□ 

□ □ IDS D Firewall □ □□□□□□ 

OL2 


□ □ □ □ 

□ □□□□□□□□□□□□ 

OL2 

□□□□□□□ 

TCPD □ 

□ □□□□□□□□ 

OL2 

□ □ □ □ 

□ □□□□□□□ 

OL2 


□ □ IP □ □ 

□ □□□□□ IPDD 

OL2 


□□□□□□ 

□ □ 

□ □ Firewall □ □□□□□□□□ IP 

* 

OL2 

* 


□ □□□□□□□□□□/□□，□□□□□□ 

□ □ 2. □ □ □ □ AR (Attack Reward)□ □ 

□□□□□□□□□□□□□□□□□•□□□□ 
□ □□□□□□□□□□□□(□□□□□)•□□ 
□，□□□□□□□□□□□□□□□['□□□□ 
□ □□□，□□□□□□□□□□□□ □□□□□• 

□ □ 3. □ □ □ □ ^CCAttack Cost)D □ □ □ 

□ □□□□□□□□□□□□□□□、□□□□□ 

□ □4. □□□□□ AL (Attack Lethality ) 口 

□ □□□□□□□□□□□□□□•□ ID □ □ □ 

□ □□□□□□□，□ o~iod □ □□□□□. 

□ □ 5 . □□□□□□ Dcost (Damage cost) 

□□□□□□□□□□□□□□□a- 

□ □□□□□□□□□□□□□□ (criticality )、 

□ □□□□□□□□ -Northcut 1281 □□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□a- 
□ □□□□□□□□□□，□□□□□□□□□□ 

□ □□□□□□ /co5f(Integrity cost), □ □ □ □ □ 
CcosKConfidentiality cost ) 口 □ □ □ □ □ Acost (A- 
vailability cost). □□□□□□□□□□□□□□ 

□ □□□□□□□□ ， □( 乃，八 ， )□□□□□ □ 

□ □□、□□□□□□□□□□□□□□，□□□ 

Pi + Pc+P v = !•□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□，□□□□、□、□□ 
□ □□□□□•□□□□□□□□□□□□□□□ 
□ □□□□□□□•□□ «□□□□□□□□□□ 

□ □ □□ “)□□□: 

m 

Dcostia)= ALX criticalityX 

i 

(I cost XP/+ CcostX. P c ~\~ A costX P a ) 

( 1 ) 

□□«□□□□□□□□• 


□ □ 6. □ □ □ □ DR (Defense Reward)^ 

□ □□□□□□□□□□□□□，□□□□□□□ 
□ □•□□□□□□□□□□□□□□□□(□□□ 
□ □ )• 

□ □ 7. □ □ □ □ Ocost (0peration cost)[] □ 

□ □□□□□□□□□□□□□□□□□□□□•□ 

□ □□□□□□□□□□□□□ 3 □ □ □ 1 14 ： 

0L1 ： □□□□□□□，□□□□□□□□，□ 

0L2 ： □□□□□□□□□□□□□□□□□ 
0L3 ： □□□□□□□□□□□□□□□□□ 

□ □ 2D □□□□□□□□□□□□□□，□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□，□ 0L1 □□□□□□□□□ 
1~10,OL2Q □□□□□□□ □ 10~50, OL3 □ □ 

□ □□□□□□ 50 ~ 100. 

□ □ 8. □ □ □ □ A/ccwKNegative cost)[] □ 

□ □□□□□□□□□□□□□□□□□□□□ 
□ □□□□□•□□，□□□□□□□□□□□□□ 
□ □□□□□□□•□□□□□□□□□□□□□ 

□ □□□□□□□ r(a, d)[] □ □ : Ncost=AcostX 
ria, d).{] □ ria, d)[] □□□□□□ (/□□□□□ 

«□□□□□□□□□□□□□□□□• 

□ □ 9. □ □ □ □ Rcost (Remainder cost ) 口 

□ □□□□□□□□□□□，□□□□□□□□□ 

□ □ □ □ □ : Rcost (a, d)=Dcost(a)X e(a, (/).□□ 

□ □□□□• 

0 0 10. □ □ □ □ Decost(Belense cost)[] □ 


□□□■□□□□□□□□□□□□□□□•□□□□□ 
□ □□□□□□. http://www. 51cto. com/art/200604/ 
25703. htm 
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□ □ □ □ □ 


2009 □ 


□ □□□□□□□、□□□□□□□□□□□(□□ 
□ □□)•□ 

D ecost (d) = O coster N co st~\~R cost 

= Ocostid)-^AcostX r(a ， d)~\~ 
Dcost(a)Xt(a 9 d ) (2) 

4 □□□□□□□□ 


□□□□□□□□□□□□□□，□□□□□ 

□□□□□□□□□□□□□□□，□□□□□□ 

□□□□□□□□□•□□□□□□□□□□□a 

□，□□□□□□□□□□□□□□□，□□□□□ 

□□•□□□□□□□□□□□□□□□□□□a 

□□□□□□□□□□□□□□□□□□□□a- 

□□□□□□□□□□□□□□□□□•□□□a 

□□□□□□□□□□□a- 

□ □ i. □□□□□□□□□□□□□□•□ 

□□□□□□□□□□□□a- 

□ □ 2 . □□□□□□□□□□□□□□.□ 

□，□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□，□□□□□□□□□□□ 
□□□□□□□□□□□□□□，□□□□□□□ 
□ □□□□、□□□•□□□□□□□□□□□□ 
□，□□□□□□□□□□(□□)□□□□□□□ 
□□□□□□□□□□□□，□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□a- 

4.1 □□□□□□ 

□ □ 11 . □□□□□□ Attack-De¬ 

fense Game)n □ □ □ □ □ ADG= (N, *5, C/ )， □ □ 

① 7V= CPi, P2, … ，凡 ）[] □□□□□□□□ □ 

□ □□，□□□□□□□□□□□□□□□□□•□ 
□□□□□□□□□□□□□□□□，□□□□□ 
□□□□□□□□□□□□□□□□□□□□□ 
□，□□□□□□□□□□□□□□•□□□□□□ 

>□□□□□□□□□□□□□• 

② *5 = (九 S 2 , …， 5„)D □□□□□□□ □ 
(strategy set) ， V/ Gn, Si^ 0, Si= (si, S 2 , s'm )□ 

□ □ □□ 

□ □□□，□□□□□□□□□□□□□□□□□ 
□ ， □ w ^2. 

③ t/= (Ul, C/2, □□□□□□□□□ 

□ (utility function). V/G«, X □ □ 


□ □□□□□□□□□□□□□□□□□□□□□ 
□，□□□□□□□□□□□□•□□□□□□□□ 

□ □□□□•□□□□□□□□□□□□□□•□a 

□ □□□□□□□□□□□□□□□□□□□□□ 
□，□□□□□□□□□□□□□□□□□□□□ 

□3DDDDDDDDDDDDDDD，DD 
□□□□□□□□□□□□□□□•□□□□□□， 

□ □ □ □ □ n= 2 □ □ □ ， ADG= {{Pa, Pd), (Sa, 

Sd), (Ua, Ud ))» D D p D D D D » p D D D D 

(□ □ )• m □□□□□□□□□ 

□ 口， s d =( si , s d 2 , -, si)u □□□□□□□□□□ 

□ . Vs? esa, S j esd,Ua(s% S j), ua(si, 〆)□□□□ 

□ □□□□□□□□□□□□ 

□ □ □ □ ^ 

□ □□□□□，□□□□□□□□□□□□□□□ 

□ □□•□□□□□□□□□□□□□□， □□間 

□ □□□□□□□□□□□•□ 4DDDD IQ □ 

□□□□□□□□□□□a- 



□3 □□□□□□ 


□□□□□□□□□□，□□□□□□□□□ 
□ □□□□□□□□、□□□□•□□□□□□□□ 
□，□□□□□□□□□□□□□□□□□□□，□ 
□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□•□□□□□□□□□□□□□ 
□□□□□•□□□□□□□□□□□□□□□□□ 
□ □ □ □ (Non-Cooperative ADG, NCADG). 


nd ad nd 

, 0 1 °2 °3 、 

S! U all U d\l U al2 U d\2 U a l3 

Uca\ Udn Ud22 Udii Ucas Ud23 


5 3 ^ a31 Ud3\ U a32 Ud32 UcQT, U 


□ 4 □□□□□□□□ 


□ □，□□□□□□，□□□□□□□□□□□ 
□ □□□□□•□□□□□□□□□□□□□，□□ 
□ □□□□□□□□□□□□□•□□□□□□□ 
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□ □□□□□□□□ (zero-sum )□ □ □ □ (nonzero- □□□□□□□□ □□□□□□ □，□□□:□□ 
sum )•□□□□□□□□ 口 U<7 口 C/rfO 0 Ua-\~Ud= yp a , Va(p: ， p: ) ^Va (p a , pd ); □口 ypd, Vd (pa , 

+U d ^0, □ □ □ □ □ pd ) a(pa , pd). 

□ □□□•□□□□□□□□□□□□□□□□□ □□□□ 14 □□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□• □□□□□□□□• 

□ □□□□□□□□□，□□□□□□□□□ 4.2 □□□□□□□□□□□□□□□□□□□ 


□□□□□□□□□□□□□□□□• 

0 0 12. □ □ □口 (Nash Equilibrium 131 ， NE). 

□ ADG=((P„, Pd), (Sa,Sd), (Ua, Ud))U ，□口 □ 

□ □ (，*，/*)□ □□□□□□，□□□□□□□□ 

□ □ □□□□□□□□□□□□□□： 

□ □ W 1 ^Sa, Ua (/*, S* ) ^Ja (/, /* ); □ □ V/ 6 
Sd, UAs a », (/*,/). 


□ □□□□□□□□□□□□□□□□□□， 
□ □□□□□□□□□□□□□□□•□□□□ 12 


□□□□□□□□□□□□□□□□□□□□a- 
□□□□□□□□□□□□□□□□，□□□□□ 
□□□□□□□□□□，□□□□□□□□□□□ 
□ □□□□• 

□ □13. □□□□ (Mixed Strategy 1291 , M S). 

□ □□□□□□□ ADG= (( 凡， Pi\ (Sa, S,), 
(Ua, Ud), □□□□□□□□□□□□ 5«= (si, 
么… ，‘） 口 S d = si , ^)D □ □ □ □ pa = 
( fal , p a 2, ■； pan , )Q Pd ~ (p dU pd 2, • • .， pd,i )， □□口 


0 ^^Pai ^^1， 0 ^^pdi ^^1， > ] pai 1; > ' p dj ^ \ • 

，.— 1 j = l 

□ □□□□□□□，□□□□□□□□□□□ 
□ □□□□□□□□□□，□□□□□□(□□□□ 
□ □□□□□□□□□□□)□□□□□□□□□ 
□ □□□□□□□□，□□□□□□□□□□□□• 
□ □ 14. □□□□□□□□ (MSNE)[ 291 •口 

□ □□□□□□ ADG= {{Pa, Pd ), (Sa, Sd), (Ua, 
⑹， □□□□□□□□□□□□□□□□ Pa = 
(paU Pa2， …， pam )Q pd= (pdl ， …， /?&)，□□□ 

□ □□□□□□□□□□□□□□□ 


VaCpa ，) == 〉: jPo 1 / [ 〉 ^jP djU a CSi ， Sj )J 

i j 

m n 

y ^] p a i ° pdjUa {sU S d j ) (3) 

n m 

Vd (pa, pd )= X pdj [ ^jP ai Ud(s% S d j )] 
j i 

n m 

=y~i pat ° pdjUdish si 、 (4) 

□ □ □□ 口 


□□□□□□□□□□□，□□□□□□□□ 
□ □，□□□□□□□□□□□□□□□□□□□ 
□ •□□□□□□□□□□□□□□□□□，□□□ 
□ □□□□□□□□□□□，□□□□□□□，□□ 
□ □□□□□□□□□、□□□□□□□□□•□□ 
□□□□□□□□□□□□□□□，□□□□□□ 
□ □□□□□□，□□□□□□□□□□□□□，□ 
□□□□□□□□□•□□□□□□□□□□□a 
□□□□□□□□□□□□□□□□•□□□□a 
□□□□□□□□□□□□□□□□□□，□□□ 
□ □ □ • 

□ □ i. □□□□□□□□□□□□□□□ 
□ □ □ □ • 

□ □ : □ □ □ □ □ DG=(S,r,S 0 ,S s ,S a . S d ) 

□ □: □□□□□□□□□□□ Soa 

1. □ □ □ ADG=((P a .P rl ),(S a ,S d ), 

2. □□□□□□□□ S„={ * si sS,} ■, 

3. □□□□□□□□ S d ^{si, 4^ si )； 

4. If ABG[j □□□□□□□□ iU a = — U d ) then 

//□□□□ u a [] ud' D D D D u d 

5. for all if G S a , do 

6 - □ □ (1)Q □ 5fD □□□□□□□□□□□□□ 

7 . □ 口 口 □ 口 口 口 口 彳 e 、 口口 ⑵口 口 矽口 

Decost. Udij~cost (a i) — D ecost ； 

8. □□□□□□ U ； 

9. else if ADG □□□□□□□□□□ <.U a ^— U d ) 
then 

10. □□□□□□□□ □ □ (1)D □ sfU D D 

□ □□□□□□□□□□ y]Dcost (aj )，U dj = 

^^DcostC <3/) + AQ 

11. □□□□□□□ 口 ^ ^ (2> n □ sf 

n Decost, Udij= ^^jDcosti ai )+ Decost ； 

12. □□□□□□ G 

13. if D D UU □ □ □ then 

14. □□□□□□□□□□ Slovel ( ADG)-, 

//□ □ ADG= ((P a , P d \iS a , S d ), (U a , U d )) 

15. else if □ □ t/[] □ □ □ □ then 

16. □□□□□□□□□□□ Slove2(^DG )； 
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□ □ □ □ ADG= ( (Pa, Pd), (Sa, Sd), (Ua, Ud))[] 

□□□□□□□□□□□□□□□□□□□□a- 

□□□□，□□□□□□□□□□□□□□□ 

□ □ □ □ • 

5 □□□□□□□ 


17. 

□ □□□□□□□□□□□□□ 

18. return S oa j 

□ □□□□□□□□□□□• 

□ □ 2. □□□□□□□□ Slovel(^Z)G). 

□ ADG 

□ □: Nash Equilibrium 

1 . A^= 0 ； 

2. for all 5iG Sh 

3. {»S= Solve 1 ^4Z)G 5i)) 

4. S'= argmax Ui(si 9 5); 

5. //argmaxt//(5i, s)[] D D Ui(su ^)D □ □ □ □ D 

6. if M= 0 or Ui S' )= Ui (M) 

7. A^= MJ Addisi, S f )； 

8. // Add(si, □ □ □ □ □ ^iD S r 

9. ifUiCsu S')>Ui(M )； 

10. M= Addisi, S' )； } 

return M. 

□ □□□□□□□□□□□□• 

□ □3. □□□□□□□□□□□□□ Slove2 

iADG). 

□ ADG 

□ □: Nash Equilibrium 

1. maximize v 

2. subject to 

3. for all Sj G Sj ； 

m 

4. 2 piU (st, Sj ) 

i= 1 

m 

5. ^]pi= h pi ^0. 

i= 1 

4.3 □□□□□□□ 

□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□ ADG= ((Pa,P d ), (Su, Sd), 

(u.,u d ))U □ □□□□，□□□□□□□□□□□ 

□ □□□□□□□□，□□□□□□□□□□□，□ 
□ □□□□□□□□□□□•□□□□□□，□□□ 
□□□□□□□□□□□□□□□□□□□□a- 
□□□□□□□□□□□□□，□□□□□□□□ 

□□□□□□□□□、□□□□□□□□□□□□ 

□□□□•□□□□□□□□□□□□□□□□□ 

□ □ □ • 

□ □ 1. □□□ !□□□□□□□□ ADG= 

iiPa, Pd\ iSa ， Sd\ (Ua ， Ud))[] □□□□□□ 口 

□ □2. □□□ 2Q □□□□□□□□□□ 
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□ 5 □ □□口 
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□ 3 □ □ □ □ 

□ □ □ 


□ □ □ 

□ □ □ □ 

□ □ 

□ □ □ □ 

All 

Web server 
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Allow 

All 

Web server 

ftp 

Allow 

All 

File server 

ftp 

Allow 

Web server 

Database server 

Oracle 

Allow 

File server 

Database server 

ftp 
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□ 

4 □□□□□□□ 


□ □ 

□ □ □□ 

□ □ 

Bugtraq □ □ 

Web server 

Linux 

Apache Chunked Enc. > 
Wu-Ftpd SockPrintf () 

5033 

8668 

File server 

Linux 

Ftp.rhost overwrite 

328 

Database 

Linux 

Oracle T NS Listener 

4033 

server 


Local buffer overflow 

3886 


□ □□□□□□□□□□□□ Root □ □ ， □ 
]□□□□□，□□□□□□□□□□ Root □ n 
]□□□.□□□□□□□，□□□□ Web n □ □ > 

innnnn^nnnnnnn n n n n Access, 


824 


□ □ 


□ □ 


2009 □ 


D D 
□ □ 
□ □ 
□ □ 
D 5 

□ □ 
□ □ 


D 

D 


D 

D 


D 

D 

D 

D 

□ 

□ □ 

□ D 

□ D 
D D 

□ □ 
D D 
□ □ 
D D 

D 
D 


D D D 

□ ，口 

□□□□ 

□ □ 

□ □ □ 

□3nD 

□ □ 

□]□□ 

D]DD 

• D D 

□ □ □ 

□ □ 
□ □ 

□ □ □ 

□ □ I 

□ □ w 

□ □ □ 
DDDD 
□ ，口 
D D D 
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□ □ 4 
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□ □ □ 


D 

D 


D 
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D 

D 


D 

D 


D 
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□ □ □ 
□ □ □ 
D D D 
□ □ □ 
D D D 
D D D 
D D D 
D D D 

□ □ □ 

D ] D 

□ 3 ^ 
.□□□ 
D D D 
D D D 


s 

ID 


D D 
D D 
D D 
D D 


1 

1 


1 

1 


1 

1 


D D 

D 5 

D D 
D D 
D D 
D D 


1 

1 


D 

D 


D 


□ □ 

□ □ □ 
□ □ □ 

□ ，口 

• □ □ 

□□□□D 

□□□□ 

□ □ 

□ □ □ 
□ □ □ 

□ □ □ 

D 


D D D 


[□ 
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□ □，□□□ 14Q □□□□□□□□□□□□□□ 

普 ， 0, \h ,pd= 0, 0, ft 0, ^ •□□□□□ 

V. ^ V. 

Q2 

□ □□□□□□□ □□ 造 □□□□□□ A,Q □□ 
□ 黑 □□□□□□ ^ 

□ 办•□□□□□□□□□，□□□□□□□□办 

□ □ Oracle □□，□□□□□ □□□□□□□□• 

□ □□□□□，□□□□□□□□□□□□□□□ 

□ □□□□□□□ 仂 

□□□□□□□□□□a- 

6 □□□ 

□□□□□□□□□□□□□□□□□□□□ 


□ □ □ Ocost, □□□□□□ 4. □□□□□□□□□ 

□ □□□，□□□□□□□□□□□□□•□□□□ 

□ □□□□□□□□□□□□□□，□ Pi = Pc=Q, 

Pv=l. □ N cost □□□，□□□□□□□.□□ 4D 

□ □ 0. □ □ Ncost □□□□□□□□□□ DOS □ 

□ □□□□□，□□□□□□□□□□□□□□□ 

□ □□□□□□□ DOS □□•Web □□□□□□ 

□ □ □ □ criticality □ □ 4, Database □ □ □ □ 
criticality □ 5_ □□□□□□□□、□、□□□□ 
30, 20 ， 10 □□□，Web □□□□□□□□□□□ □ 

□ □ □ □ □ 20, Database □□□□□□□□□□□ 
30. □□ □□□□□□□□□□ 6 □□，£，□□□ □ 

□ □□□□□□ /□□□□□□□□□□□□□• 

□ □，□□□□(”□ (2)DD □□□□□□□□□ 

□ □□□，□□ ▽□□□□□□□□□□• 

od rd od od od ad 

°2 °3 °5 

A] [ 810 1510 1670 2470 2650 2300 

A 2 810 2470 1670 2470 2470 2300 

a 3 2310 2310 2470 1670 970 2300 


，□□□□□□□□□□□. 

_D 5 □□□□□□ 

□ □ □ □ □ □ □ 

1. Apache chunk overflow Root 

2. Wu-Ftpd buffer overflow Root 

3. Ftp. rhosts User 

4. Remote buffer overflow Root 

5. Local buffer overflow Root 


_D 6 □□□□DP 

□ □ Ocost Ncost R 

D [: □ □ Oracle □ □ 10 0 ^ = e 

D 2 ： □ □ Apache □ □ 10 0 气 =( 

D 3 ： □ MAIL ADMIN" 10 160 4 =( 

D 4 ： □ □ FTPDD 10 160 ei=e 

D 5 ： [] [] suid root 10 240 = e 

De ： □□□□□□□ 0 0 £i = e 


Vcost Rcost □ e □ □ Q 

0 e i = e 2 =e 3 =£ 5 = e 4 = 0 

0 ^ 1=0 ^=£3 = ^ 4 =£ 5 = 1 

160 ^ 2 =0 ej= e 3 = e 4 = e 5 = 1 

160 £^ = £2 = ^4 = ^5 = i ^3 = = 0 

240 e 1 = e 2 =e 3 = e 4 = 1» ^5= 0 


□□□□□□□□□□□□□□，□□□□□ 

□□□□□□□□□□、□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□ 

□ □，間60 □•□□□□ 6 D □□□，□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ 

□ □ ， □□□□□□□□□□ ， □□ 間 3D □ □ □ 


Ai ： A 


□ □ ^ — ^ — 屯 □□□□□□□□□□ ^ □ 

□ □ □□ 5,□□□□□□ 4DDDDDD 

1 s 


1.^:15101 |y gl0 |. 

|&Vl670| 


仪 1670| 


□ 6 □□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□ 
□ □□□□•□□□□□□□□□□□，□□□□□ 
□ □□□□，□□□□□□，□□□□□□□□□□ 
□ □□□□□□□□□□□□□，□□□□□□□ 
□ □□□□•□□□□□□□□□□□□，□□□□ 



□ □ □□：□□□□□□□□□□□□□□□□□□□□□□ 825 


D D 
□ □ 
D D 
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□13 
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□□nr 
□ ^ D 
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□ □ □□ — □ □□□□□□□，□□□□□□□ 
□ □□□□、□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□•□□□□□ 
□ □□□□□□□□□□□□□□□□□□•□□ 
□ □□□□□□□□□□、□□□□□□□□□□ 
□ □□，□ □□□□□□□□□□□□□□□□• 
□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□ 

□ □ □ □ 
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Traditional static protective measures are not sufficient 
to secure a complex networked system. Existing cyber secur¬ 
ity technologies can only passively prevent ， detect，and react 
to cyber attacks. Intrusion detection (ID) architecture is a 
passive information processing paradigm. In many cases in¬ 
trusion response is “ too late” after very serious damage is 
caused. Attack prediction is very critical for cyber homeland 
security. It is a big challenge that making correct optimal 
proactive defense decisions during an earlier stage of the at - 
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tack. In sudi away we can transform passive to proactive cy¬ 
ber defense^ and much less harm will be caused without con¬ 
suming a lot of resources. 

This paper views the interactions between an attacker 
and the defender as a two-player non-cooperative game and 
formulate an attach defense game (ADG) model for the 
game. The defense graph model at tack-defense taxonomy 
and cost quantitative model are proposed. An algorithm for 
optimal active defense strategy selection based on those mod¬ 
els is proposed. Optimal defense strategies with minimizing 
costs are used to defend the attack and harden the network in 
advance. This paper is an extension and development of their 
previous work 1 J . 
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摘要 ：提出 了一种针对高速网络环境的信息获取体系结构.可扩展的网络探测模型较好地解决了不同网络带宽的 
适应性问题；高带宽数据流实时捕获技术、高效的多线程 TCP / IP (传输控制协议/互联网络协议）协议栈，以及基于 
插件的 PLUGINS 协议还原平台，使信息的捕获与还原问题得到了根本性解决.综合以上技术所构建的体系结构 
可以应用于多线路、高速网络环境下，解决检测范围大、数据流量高等问题，保证数据信息的及时性、安全性与准 
确性. 
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Abstract : The architecture cf information c^>ture for the hi ^ i-speed network envirmrnent was prcr 
posed . The diffeent network bandwidth adaptive problem was solved by the extensible network 
detection model . It has been found that real-time data stream capture from high-bandwidth networks , 
highrperformance multi-thread TCP/IP (transmission ocntrol protocol/Internet protocol ) protocol 
stack , and protocol analysis platform based on PLUGINs have captured and assembled the information 
wcnderfully . The architecture int^rated these technolc^ies effectively will solve the problems such as 
the large-scale detectico , high-speed data stream , ensuring the in-time , security and veracity of the in ¬ 
formation cn multi-road and high-speed networks . 
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o 引言 

近些年互联网在国际范围内得到了突飞猛进的 
发展，已成为人们日常生活中不可或缺的一部分. 
互联网在对社会、经济、文化和科技带来巨大推动和 


冲击的同时，其自身的安全问题也变得日益突出. 
互联网自身的安全，已经开始制约互联网的进一步 
广泛应用，因此，如何保障互联网的安全运行，已成 
为关注的焦点. 

保障网络安全的 PDRR (protect detect react re ~ 
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stole ) 防范模型，从防护、检测、响应、恢复这几个角 
度全面保障互联网的安全.其中，检测技术所依赖 
的核心技术就是互联网信息的获取.通过对网络信 
息的获取，进一步判定是否出现了网络入侵事件. 
换句话说，互联网的信息获取是 IDS (入侵检测系 
统) [1 ’ 2] 的重要环节.尤其是目前网络带宽越来越 
高，解决高速网络环境下的信息获取变得十分重要. 
高速网络定义为骨干网络上有1 Gbit / s 以上流量的 
网络，在这样的网络环境下的信息获取面临如下的 
难题： 

1) 网络数据处理瓶颈.随着百兆以太网、 
ATM 、 千兆以太网广泛应用，现在主机对网络数据 
包的处理逐渐成为一个瓶颈，往往需要机群来捕获 
处理大量的网络数据. 

2) 要获取的信息种类层出不穷.由于网络安 
全问题的类型很多，所面对的网络信息类型也很多， 
从而使得为网络安全监控而需要的网络信息的获取 
变得复杂. 

3) 各种协议层出不穷，导致系统变动频繁.网 
络信息获取系统需要面对不同的协议给出不同的分 
析结果，如何解决协议处理的通用性成为了挑战性 
问题. 

通过以上分析，本文提出了一种在高速网络环 
境下的信息获取体系结构.该结构采用可扩展的网 
络探测模型、高带宽数据流实时捕获 [3_5] 、高效的多 
线程 TCP / IP 协议栈、基于可扩展的 PLUGINs 的协 
议还原、多模匹配算法 [6] 等关键技术，有效地解决 
了高速网络环境下信息捕获面临的难题.为检验该 
体系结构的功能，设计了针对该体系结构的实验系 
统，并进行了测试. 

1信息获取体系结构 

1. 1 系统结构 

信息获取体系结构如图1所示.该体系结构由 
1组 （ n 个）原始信号耦合器 (C i ) 、汇总/分流子系统 
( GD )、 1组 （ m 个）处理子系统 （ P 』）、 系统预警中心 



( SWC ) 和汇总/处理子系统 ( GP ) 组成.首先利用原 
始 G 复制数据信号，传给 GD 然后由 GD 将数据流 
( DS k ) 按照一定的策略分配给 Pj ;接着 Pj 对分到的 
数据流进行捕包、还原、分析等操作，并将处理后的 
信息传给 GP ;最后由 GP 将最终的结果汇总和分 
析. SWC 实时监视系统的运行情况. 

1.2 主要子系统简介 
1.2.1 原始信号耦合器 

原始信号耦合器是指网络原始数据输出机构， 
如 HUB 的监听口、交换机的镜像口等.通过这些端 
口将线路上的数据信号完整地复制出来，送到下一 
级进行初级处理.原始信号的耦合技术根据不同的 
监听机制来设计.考虑到在高速网络环境下进行信 
息获取，所以采用光耦合监听.采用光耦合器件可 
以将光信号复制出1份或多份，因其是无源设备，故 
而运行稳定，只是双向数据需要分别输出.这种方 
式适用于 POS 、 GE 、10/100 BASE-FX 等光接口. 
1.2.2 汇总/分流子系统 

汇总/分流子系统对接入的数据流进行均衡的 
划分，这是实现宽带网络数据高性能处理的关键. 
该系统利用“异或”操作， 

XOR (Sip JDip , Sport , Dport ) mod n 
( n 为集群系统的节点数)将数据流的各个连接均匀 
地分配到集群系统的各个节点机上，保证了经过同 
一过滤点的同一连接的2个方向数据都能进入同一 
节点机中. 

1.2.3 处理子系统 

为解决在不同网络带宽下的适应性问题，每个 
处理器子系统采用基于单控制流多数据流 （ SPMD , 
single pregram multiple data ) 计算模式的集群式体 
系结构，通过对集群系统进行可伸缩性设计，达到仅 
通过增加处理节点而不修改程序即可成倍扩展处理 
器子系统处理能力的目的.其结构如图2所示.图 
中的插件为各种应用层服务，目前已实现 HTTP 、 
TELNET 、 FTP 、 SMTP 、 POP 3、 FREENET 、 IMAP 、 



图 1 信息获取体系结构 


图 2 处理子系统结构 
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FREBGATE 和 TRIBOY ，可以根据实际需求进行 

添加或删除，不会影响其他插件的正常工作. 

2关键技术 

2.1 Zero~copy 捕包平台 

目前，在 Unix / Linux 操作系统下的网络监听系 
统普遍建立在 Libpcap 捕包平台上，这是一个可用 
于捕获经过网络接口数据包的 C 函数接口系统库. 
由于 Libpcap 在捕包过程中经过多次函数调用和内 
核拷贝，以及频繁的中断处理和进程切换，导致捕包 
效率不高. 

Zercncopy 是指在某节点的报文收发过程中不 
会出现任何内存间的拷贝，即在发送和接收过程中， 
数据包直接在应用程序的用户缓冲区和网络接口间 
传递，避免了中间的数据拷贝过程，故称为“真正的 
零拷贝”.要实现真正的零拷贝需解决用户和内核 
共享内存、地址翻译 [7 ’ 8] 、保护机制和控制传递方式 
4个问题. 

首先，利用 Linux 操作系统提供的一种内存映 
射 [9] 机制，即将某一块内核空间映射到虚地址空 
间，用该空间内的虚地址访问相应的物理页面，实现 
用户和内核共享内存. 

其次，采用内核和网卡协作.在内核创建一个 
虚拟设备模块 ( Dum ) 用于存储用户空间缓冲区块的 
索引，并维护一个虚地址到物理地址的地址表.上 
层用户和网卡通过访问这个虚拟设备得到自己需要 
的目的地址，解决地址翻译问题. 

再次，采用允许多个用户访问网络接口和数据 
包的缓冲区的方式，但只允许一个进程对网络接口 
设置的保护机制. 

最后，采用中断与轮询的综合处理方式，给中断 
加一个定时器，修改网卡驱动程序，每隔一定时间发 
一次中断，每次同时处理多个数据包. 

通常情况下，内核接收网络数据包也存在一定 
的浪费.对以太网而言，当一个数据包到达网卡时， 
向内核发一个收包中断（硬中断），内核调用中断处 
理程序，将该数据包拷贝到内核的 SK Buffer 缓冲 
区，并剥去以太包头，然后标志 NET BH 标志位， 
返回，等待中断的下半部分处理.此过程约耗费 
20 %的 CPU . 当 CPU 空闲时，调用中断的下半部分 
处理程序，将 SK Buffer 中的 IP 报文投入内核协议 
找，进行还原.该过程发生多次系统调用与内存拷 
贝，耗费约20%的 CPU . 最后内核将还原的数据由 


内存的内核空间拷贝到用户空间，提供给用户处理 
使用，该过程约需要50 %的 CPU . 

综合以上的分析设计出基于 Zbrcnoopy 思想的 
捕包平台，如图3所示.在用户层 ( User ) ，分配1个 
大的用户缓冲区 CUB ) ，存放接收和发送的数据包， 
并被分成每块大小为 2 KB Block , 每小块存放1个 
数据包.在内核区 ( Kernel ) 创建1个 Dum ，作为用 
户程序与网络接口进行交互的中介，并成为上层应 
用操作网络的句柄 . Dum 为用户缓冲区的每一小块 
建立1个描述符 Item , 并将每个描述符挂入 EXim 不 
同的队列里.共建立了发送队列 SendQ 、 接收队列 
ReoeiveQ 、 空闲队列 FreeQ 3个环形队列.待发送的 
数据包的描述符挂入 SendQ ，接收到的数据包的描 
述符挂入 ReceiveQ ，没有数据的块的描述符挂入 

FreeQ . 同时 JDum 设备还维护1张虚地址-物理 

地址对应表 （ PAT ). 用户缓冲区有多少虚地址页， 
这张表就有多少项，每一项存放该虚地址页对应的 
物理页面的首地址 . Dum 设备本身在内核中的缓冲 
区空间被映射到用户区，和 UserBuffer —起成为一 
块由内核和用户共享的区域.这块区域包括 User - 
Buffer 、3 个环形队列和物理地址表.这样网卡和用 
户都可以自由地访问这块共享区域的数据.修改网 
卡的驱动程序，将网卡设备的私有域填上 Dum 设备 
的信息，网卡进行直接存储器存取 ( EMA ) 传输时， 
直接根据 Dum 设备中的描述符找到真正的位于用 
户区的缓冲区，然后直接将数据包从网卡传到用户 
区，数据包不再进入内核的协议找. 



在相同的实验环境且每个包大小为 64 B 时， 
Libpcap 与 Zercnccpy 捕包效果的比较如图4所示， 


因为目前路由器的 MTU 为1 500 B , 加上以太包头的 14 B , 所 
以传送到用户空间的包字节数不会超过1 514 B , 这样 2 KB 大小的 
块刚好能满足包大小的要求.又因为在 Linux 2.4 内核下，内存每一 
页面的大小为 4 KB , 这样 Block 的大小刚好为页面大小的一半，便于 
后面进行页操作. 
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从图中可以清楚地看出 , Zo - cncopy 的捕包能力远优 
于 Libpcap . 



发包率 xl 0 5 /( 包 .S- 1 ) 


图4 Libpcap 与 Zaxrccpy 捕包性能比较 

2.2 多线程 TCP / IP 协议栈 

与传统的 TCP / IP 协议找不同，用于网络信息 
获取的 TCP / IP 协议栈不需要输出数据，而只需对 
输入的数据进行处理.但这种协议栈却需要同时处 
理网络链路2个方向上的数据，即从用户层输入，通 
过协议栈从链路层输出到通信线路上，与从通信线 
路上输入通过协议栈传递到用户层.而用于网络信 
息获取的 TCP / IP 协议找的2个方向的数据都是从 
通信线路上输入，通过协议找的层层还原，还原出应 
用层的通信原始数据流，再提交给具体的应用分析 
插件进行分析. 

通过以上分析可知，传统协议找的单线程机制 
并不能充分发挥通用的共享存储器多处理器 SMP 
体系结构的高性能服务器的计算能力，因此采用多 
线程共享内存的多处理器平台 （ SMP ) [1 ° ] 完成连接 
级别的 TCP / IP 协议栈的并行处理方法.多线程连 
接级并行的 TCP / IP 协议栈本质上是同时运行多个 
逻辑上独立的 TCP / IP 协议栈，协议找结构框图如 
图5所示. 

并行协议栈通过1个数据分发器将捕包系统捕 
获的网络数据包按照 IP 包头的源地址和目的地址 
对分发到相应的线程进行处理，并通过1个空闲单 
元收集器完成空闲单元的释放.注意，这里的空闲 
单元释放并未将相应的数据块存储单元空间释放， 
而是将存储单元退还给捕包系统，让捕包系统重复 
利用这些单元，实现捕包到分析的 Zercnoopy . 

每个 TCP / IP 协议找线程均有1个私有的协议 
找状态表和2个数据队列索引，其中协议找状态表 
是协议栈在进行 IP 协议和 TCP 协议还原时用来保 
存上下文信息和暂存 数据； 而2个数据队列索引则 
分别用来存储待分析的数据块和已分析块.这样， 
任何一协议栈线程在进行数据操作时都不会和其他 
协议栈线程共享数据块，避免协议栈间的临界锁. 



图5多线程 TCP / IP 协议栈结构框图 


3系统测试 


为验证该信息获取体系结构的工作能力，设计 
了如图6所示的实验环境，用于测试系统的整体性 
能.测试中所有机器的硬件配置为内存4 GB ,CPU 
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图6测试环境 

为 2. 0 GB ，硬盘为 18 GB . Intel ( R ) PRO / 1 000漱件 
配置 Linux 机器为 Red Hat 2.4. 18-5 snp , Windows 
机器为 A \^ ndows 2000 .在 SmartBits 的背景流量下， 
通过客户端对服务器访问.在此实验环境下，进行 
网页地址、邮件地址、网页内容、邮件内容和 IP 地址 
监视的测试，实验结果如图7所示.从图中可见，信 
息获取的效果非常理想，但这与试验环境有相当大 
的关系.首先, SmartBits 发的每个包都一样；其次， 


该架构有较高的灵活性，可以通过适当增加处理器的数量适 
应光纤网络传输能力的提高. 
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图 7 信息监测测试 

4结论 

本文所提系统采用的可扩展的探测模型能适应 
各种网络环境；高带宽数据流实时捕获技术在 
SmartBits 作背景流量，每个包为64 B 时捕包率达 
到 9 X 10 5 包 / s ， 尤其当包大小为128 B 时捕包达到 
了线性；高带宽复杂网络环境下数据流协议还原技 
术大大提高了协议还原的能力，当有4个线程以上 
的协议栈时，其吞吐量可达到2 Gbit / s . 采用上述技 
术所实现的高速网络环境下的信息获取体系结构， 
很好地解决了目前高速网络信息获取中的问题. 
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Abstract. Peer-to-Peer (P2P) techniques are broadly adopted in mod¬ 
ern applications such as Xunlei and Private Tracker [1,2]. To address the 
problem of service availability, techniques such as bundling and implicit 
uploading are suggested to increase the swarm lifespan, i.e., the duration 
between the birth and the death of a swarm, by motivating or even forc¬ 
ing peers to make more contributions. In these systems, it is common for 
a peer to join a swarm repeatedly, which can introduce substantial bias 
for lifespan modeling and prediction. In this paper, we present a math¬ 
ematical model to study the lifespan of a P2P swarming system in the 
presence of multi-participation. We perform evaluations on three traces 
and a well-known simulator. The result demonstrates that our model is 
more accurate than previous ones. 

Keywords: peer-to-peer; modeling; evolution; lifespan 

1 Introduction 

Peer-to-peer (P2P) systems have seen a tremendous growth in the past decade 
for its scalability and high downloading speed [3]. They are widely used for 
content sharing and online video streaming. The lifespan of the P2P swarm for 
a resource is defined as the time duration from the time that the resource is 
shared in the system to the time that the number of peers in the swarm becomes 
below a predefined threshold, such as one. 

To improve the availability, extending the lifespan of P2P swarms is critical 
for modern P2P systems. For example, peer-assisted systems, such as FS2You 
[4] with both dedicated servers and peers, if a swarm died servers must afford all 
the uploading bandwidth. It’s reported that cold files that involved little peers 
consume 54% of the bandwidth of servers in FS2You system [4]. As another 
example, for private tracker systems, peers have to maintain a certain uploading¬ 
downloading ratio for better availability (ie., they must upload more in order to 
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download more). But a selfish peer with high uploading bandwidth tend to leave 
quickly once it achieves the ratio, which can hurt the swarm lifespan aggressively. 
In this work, to better understand the lifespan of P2P swarms, we model P2P 
swarm evolution from a nontrivial view and figure out the important factors 
that impact lifespan, which is important for P2P system design and performance 
tuning. 

Prior studies on P2P swarm model are based on single-participation, i.e., 
assuming that a peer joins a swarm only once, [5,6]. However, measurement 
studies observe that this assumption does not hold in reality [7,8]. In modern 
systems, such as Xunlei [1] and private tracker systems [2,9]，reward generous 
peers who provide more uploading by giving them higher downloading speed and 
punish selfish peers. Generous peers are motivated and selfish peers are forced 
to share resources with other peers. Therefore, we observe that a peer often par¬ 
ticipate a swarm repeatedly, which can be the main source of bias for the prior 
models. Though a peer may join one swarm multiple times, only the first partic¬ 
ipation can be modeled and others are ignored. Consequently, only the interval 
between the first arrival and leave can be counted in the model as the peer online 
time. These limitations will make the prior models underestimate the peer online 
time and the swarm lifespan. To our best knowledge, the only prior work on P2P 
swarm modeling that assumes multi-participation is by Menasche et al. [8]. They 
modeled the content availability by a new metric called “busy period”，which is 
the uninterrupted intervals during which the content is available. However, their 
model only depict the relationship between peer arrival rate and swarm lifespan, 
leaving other factors like peer online time out of their discussion. 

In this work, to address multi-participation when modeling swarm lifespan, 
we combine the series of participation of the same peer into a single process 
called task to incorporate the interrelationship of consecutive behavior of the 
same peer. By regarding each task as an alternating renewal process that switch 
between online and offline, the number of active peers of a swarm can be obtained 
during the evolution. As the lifespan of a swarm is the duration between the 
swarm birth and death, and as the birth point can be observed easily, we derive 
the death point through solving the evolution equation by setting active peers 
as a threshold. We show that by employing a subexponential decaying process 
approximation in the model, a closed-form solution can be obtained. As lifespan 
is very difficult to measure and predict in reality, we present a new lifespan 
metric according to our model, half-life, which is defined as the time in which 
the number of active peers decreases from a start to its half. The evaluation 
based on real traces and extensive simulations verifies that our model is more 
accurate than the state-of-the-art fluid model. 

In summary, we make four major contributions. (1) Task-based churn model: 
We present a task-based churn model by combing the series of participation 
of the same peer into a task and characterize the task-based churn. (2) Task- 
based evolution model: We present a novel model to depict swarm evolution 
based on task-based assumption. The model can be used to analyze the lifespan 
of swarming systems. (3)Lifespan model: We present a closed-form solution of 
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lifespan through approximation and an efficient metric, half-life. (4 )Experimental 
validation: We perform extensive experiments on both three real traces and 
simulations to compare the accuracy of the task-based model with the fluid 
model. The results show that our model is more accurate then prior ones. 

The remainder of the paper is organized as follows. Section 2 presents re¬ 
lated works on swarming systems. Then we propose our task-based churn model 
in Section 3. In Section 4, we demonstrate our evolution model and the lifespan 
model. In addition, we also propose a half-life based method to measure lifes¬ 
pan more efficiently. Section 5 and 6 present our experiment setup and results. 
Finally, we conclude the paper. 

2 Related Works 

Although many studies aimed to model or improve the availability of P2P sys¬ 
tems, most of them made unrealistic assumptions to bypass the complexity. 
Before introducing related models, we present some measurement studies of real 
systems. Daniel et al. have performed comprehensive measurements on Gnutella, 
KAD and Bittorrent systems [7]. In their paper, three of important conclusions 
are highly related with our work. First, they have found that the inter peer ar¬ 
rival time follows exponential distribution. Second, the online session length is 
better described by Weibull distribution. The third is that past session length of 
a peer is a good predictor of the rest, which means consecutive behaviors of the 
same peer are related. In modern P2P systems, peers have new patterns accord¬ 
ing to the measurements of Private Tracker systems [2,9], or more specifically 
peers are more patient, active and eager to upload than before. 

For P2P evolution modeling, Qiu et al. have proposed a simple fluid model 
to describe Bit Torrent-like system and studied the steady-state network perfor¬ 
mance [5]. Based on extensive measurements on real Bit Torrent systems, Guo 
et al. have found the peer arrival rate follows the exponential process and mod¬ 
eled the swarm lifespan with an improved fluid model. [6]. Kaune et al. also 
focused on the availability in modern systems. They performed widespread mea¬ 
surements and found that seeders have a significant impact on swarm availability 
[10]. Then they tried different incentives to improve the availability and gave a 
comparison study on them [11]. 

3 Task-Based Churn 

In this section, we firstly present the task definition and task-based churn, then 
we model task-based churn with the help of three characteristics : task arrival 
rate, task duration and task availability. 

3.1 Task 

In modern P2P systems, incentives are exploited to encourage peer’s more and 
longer contribution to enhance the availability of the whole system, which lead 
the multi-participation to prevail. Take Xunlei for example, which is the most 
widely used private P2P system in China, peers are forced to upload their down¬ 
loaded files by implicit uploading every time they join it. This phenomenon of 



4 


Y. Zhao et al. 



Fig. 1: A peer lifecycle in a task 


multi-participation is also mentioned in other literature [7,8,12]. However, to 
the best of our knowledge, no evolution or lifespan model was provided in the 
presence of multi-participation. 

To address multi-participation, we define the process starts from a peer’s first 
arrival to the last departure of a swarm as one basic unit called task. When a 
peer ends a task in a swarm, the peer will no longer be back to the swarm again. 
Figure 1 shows the lifecycle model of a peer in a swarm during a task. More 
specifically, a peer will experience four states in its lifecycle in a task: Arriving, 
Downloading, Seeding and Leaving. Compared with the session defined in fluid 
model, assuming that a peer has single participation in a swarm and should 
not be back after the first departure, task can be more general, insightful and 
practical. 

In order to better understand multi-participation, we collected tracker log 
trace from a nationwide private tracker system in China (cgbt trace). Users in 
this system should hold an upload-to-download ratio to maintain its access right. 
The system currently has 116,679 registered users and 132,777 torrents. The 
average upload-to-download ratio is 2.8. The trace contains all peer requests that 
were posted to the tracker from June 1, 2010 to July 4, 2010. In the trace, there 
are 447,141 swarms and 843,242 peers all together. The result in Figure 2 shows 
that more than 75% of peers join the same swarm repeatedly. Furthermore, 30% 
of peers participate in the same swarm for more than 10 times, which suggests 
that they are very ’’patient”. This finding shows the limitations of the fluid 
model of characterizing the swarm with impatient peers. 

3.2 Modeling and Characterization of Task-Based Churn 

The dynamics of peer activities when we view it in a task perspective is called 
task-based churn. In order to build task-based evolution model, we are interested 
in three characteristics of tasks in the churn: task arrival rate, task duration and 
task availability. 

Task arrival rate profiles the pattern of task arrivals. As the downloading 
request of a torrent file, which can be regarded as the creation of tasks, decreases 
exponentially [6], we assume that the task arrival rate of a swarm follows an 
exponential decreasing rule with time t. 

\{t) = A 0 exp(--), (1) 

丁 

where Ao is the initial arrival rate and r is the attenuation parameter. In other 
words, t indicates the decreasing speed of task arrival rate. To consolidate our 
assumption, we fit the arrival rate of each swarm in cgbt trace and plot all 
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the parameters (Ao,r) in Figure 3. In this figure, x-axis denotes Ao and y-axis 
denotes t. We can find that r has an upper bound (1000) except for the cold 
swarms with too small task arrival rate to make a good fit, which implies the 
task arrival rate fits a exponential decreasing function well. 

Task duration depicts how long a peer remains in the swarm from a task 
view. We assume that the task duration follows Weibull distribution, since it 
is widely used in survival analysis, including duration analysis and modeling, 
and can approximate a wide range of classes of functions including exponential, 
normal and lognormal only with two parameters. 




1-exp[- (#]， 


( 2 ) 


where A: > 0 is the shape parameter and /x > 0 is the scale parameter of the 
distribution. Different value of k can lead to different types of distribution. For 
cgbt trace, we collect the lengths of all tasks, each of which includes several 
online and offline states, and plot the cumulative distribution of task durations 
with their Weibull fitting in Figure 4 in log-linear scale. For most part of the 
distribution, the Weibull distribution is able to provide tight fitting except for 
the durations above 600 hours. The reason is that we cut off the tasks, which 
are still alive after our trace stop. 

Task availability is the proportion of online states in the task duration, which 
indicate the peer online probability. Since the task duration includes online and 
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Table 1: Notations for our model 


入 0 

the initial value of task arrival rate 

T 

the attenuation parameter of task arrival rate 


the scale parameter for the distribution of task duration 

k 

the shape parameter for the distribution of task duration 

a 

the task availability 

(the proportion of online states in the task duration) 

N(.) 

The evolution of a swarm (The average number of online tasks) 

HL(-) 

The half-life of a swarm 

L 

The lifespan of a swarm 


offline states, we use an alternative renewal process to model the behavior of 
each task. With the help of task availability, we can better understand how 
offline states contribute to the dynamics of the system, which is not considered 
by the fluid model. We define the task availability as 

Ton 


Ton + T 0 ff 


(3) 


where T on is the mean of online state length and T 0 " is the mean of offline state 
length. 


4 Task-Based Lifespan Model 

In this section, we first present the swarm evolution model for the view of entire 
and then obtain a closed-form solution of lifespan through approximation. For 
the convenience of reference, we list the meanings of the parameters of our model 
in Table 1. 


4.1 Swarm Evolution 

As the lifespan is determined by the number of online tasks in the swarm, or the 
swarm evolution, we firstly model the swarm evolution in the view of task. 

We define X as a random variables that represents the task duration of a 
peer. Suppose a task starts at to, with the help of task duration distribution, we 
can obtain the probability at time t that the task is still in the swarm by: 

Palive{to,t) = Pr(X > t — t。）= 1 — F(t — t。）= exp[—( - ^ 产]. ⑷ 

According to our task-based churn model, the number of new task arrival or 
task arrival rate at time t is X(t)dt. And with the help of PaiiveiUht 、， we collect 
all the tasks that join the swarm before t and can obtain the number of online 
tasks at time t by: 

ft rt t — x x 

N(t) = a X(x)P a iive(x,t)dx ^ a\ 0 / exp[-( - ) k —— }dx. (5) 

Jo Jo k 丁 
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4.2 The Closed-Form Expression of Lifespan 

Although the real swarm lifespan is very hard to be determined in practice, 
swarm creator or system operator usually kills a swarm when it has very few 
peers. Keep this intuition in mind, we set a threshold on the number of online 
tasks as the criterion of swarm death. Without loss of generality, we select 1 as 
the threshold in our model. Consequently, the lifespan can be obtained by solving 
the equation N(t) = 1, called the evolution equation, to obtain the death point t. 
Unfortunately, N(t) is a transcendental function, which prevents us from solving 
the equation analytically. Hence, we have to make necessary approximation to 
the evolution to obtain the closed-form solution of lifespan. 


Approximation The first step of our approximation is to expand the exponen¬ 
tial term exp[— — 學 ] which is a transcendental function. According to the 
Taylor series, we can know that 

exp[-(^) fc -^]=exp(^)£^(^. ⑹ 

^ j=0 M 

Then we can calculate the integration of the Taylor expansion. If we let y = t—x, 
there is only one variable in the summation. 

[ exp[-(^~~-) fc --]^ = exp(--)^^-^- f y kj exp(-)dy. (7) 

Jo " T 丁 為 r-^ J Jo 丁 

Note that the integration in Equation 7 can be decomposed with a Kummer 
function, which has a known approximation [13]: 

[y kj exp(-)dy = ^ . M(l + kj, 2-\-kj,~). (8) 

Jo T 1 + 幻 丁 

Here M(.) is a Kummer function. And when one of the three parameters (1 + 
kj，2 + kj, .) is large, and the other two remaining modest in magnitude, this 
function has a special approximation as follows [13]: 

M(1 + kj, 2 + kj, l ~) ^ ^ I ^ C-r 1 exp(^). ⑼ 


As r is a constant during the swarm evolution, the above approximation condi¬ 
tion can be met if t is large enough. Hence, we apply the approximation in the 
situation that t/r is large enough and positive with 1 kj ^ 0, —1, —2,... [13]. 
In this way, the transcendental function can be simplified to a simple exponential 

j U11< I N(t) ^ aXoTexp[—(—) k ](t/r is large and positive). (10) 

Finally, we can solve the transcendental equation and obtain the swarm lifespan 
with the start at 0 as: 

L = /x[log(aAor)] 1/fe . (11) 

The result shows that ", with a linear influence on lifespan, is the most significant 
parameter. And this equation suggests that the designers should try to encourage 
users to hold the task as long as possible. 
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4.3 Lifespan Prediction and Measurement 

To predict and measure lifespan can be very difficult in reality, because the 
swarm death point is hard to be determined. In the fluid model, an explicit 
point that indicates the death of swarm is obtained to predict lifespan. However, 
this result relies on the single participation assumption, which is unrealistic. 
And it can be biased by the temporary or accidental leave of peers for a dying 
swarm with very few active peers. To address prediction, recalling the condition 
of our approximation, if t is large enough compared with r, we can regard the 
evolution after t as a subexponential decay process. This implies us that if we 
choose a time point large enough in the swarm evolution as a start, we can 
use sub exponential decay process to approximate the rest evolution process. 
Experientially, if t/r > 7r can be met we can safely apply the approximation for 
predicting the swarm death point and lifespan. 

To apply the above prediction, we have to estimate five parameters (A, t, ", A:, a). 
To make it more efficient, we suggest to use half-life, which is the time that the 
number of online tasks decrease from the value at starting point to its nth half, 
to indirectly measure swarm lifespan based on our model. Half-life depicts the 
swarm decreasing speed and can be expressed as follows: 

HL{n) = ti — to = + nlog(2)] 1//fc — to ， （ 12) 

2 M 

where to means the time of starting point and t 士 means the time when the 
evolution decreases by n folds. Therefore, the lifespan can be viewed as the 
function of N(to) and HL(n)\ 


L = t 0 + HL(n). (13) 

By solving 2 n = N(to) with respect to n, we can derive the lifespan according to 
Equation 12 and Equation 13 with the start at 0. When predicting lifespan in real 
measurement, we firstly need to record the evolution of a swarm whose duration 
is long enough to include the decreasing part of evolution. Then we select a point 
in the decreasing part and label it as to. Since we have two unknown parameters 
(fi and k) in the Equation 12, we need to select at least two other point in the 
decreasing part to determine the unknown parameters (e.g. to.5 and to. 25 ) - In 
this way, we can obtain the prediction of lifespan according to Equation 13. 

5 Trace Evaluation 

In this section, we compare the accuracy of our evolution model with the fluid 
model on three tracker traces. Besides using the cgbt trace, we also introduce 
two other traces available on the Internet. One trace (alluvion trace) is statistics 
pages from two large trackers (www.alluvion.org and www.crapness.com), late 
2003 to early 2004. After parsing these web pages, we found 96,339 swarms 
and 417,166 peers all together. The other one (filelist trace) was collected from 
Filelist.org by scraping its website during the period from Dec 14, 2005 until 
Apr 4, 2006, and it was collected by Roozenburg and et al.. This trace contains 
data collected from 3,000 swarms and 2,172,738 sessions. 



Task-Based Model for the Lifespan of Peer-to-Peer Swarms 


9 


5.1 Experimental Setup 

In order to compare our model with real traces, we analyze the traces and obtain 
all parameters by fittings. Our experiment has four steps as follows. 

1. We split the traces according to swarms and remove the cold swarms with 
peers less than 100. 

2. For each swarm, we collect the task arrival rate, task duration and the task 
online/offline state length of each peer. To compare with the fluid model, we 
also collect peer arrival rate and peer online time following the definition in 
prior study [6]. 

3. For each trace, we select one swarm randomly. By counting active peers in 
each selected swarm, we plot the real evolution and the two predicted ones 
that are calculated according to the two models in a figure (Figure 5, 6 and 

7). 

4. To show the accuracy for all swarms, we calculate the MSE (Mean Square 
Error) between the modeled evolution and the real one in each swarm. As 
the real evolution can periodically fluctuate in one day (time-of-day effects 
[14]) that can bias the MSE aggressively, we use 24 hours moving average as 
the real evolution and plot the cumulative distribution of all swarms’ MSE 
in a figure (Figure 8, 9 and 10). 

5.2 Accuracy of Task-Based Evolution Model 


0 110 220 330 440 550 660 

time (hours) 

Fig. 5: The comparison between real 
evolution in cgbt trace and models 


0 40 80 120 160 200 240 

time (hours) 

Fig. 6: The comparison between real 
evolution in alluvion trace and mod¬ 
els 


As shown in Figure5, we can see that the task-based model fits the real 
evolution very well, while the fluid model only captures the increasing part, 
which is only a short period after the swarm birth. The reason is the fluid model 
ignores the “extra” participations, causing significantly underestimation for the 
number of peers. Hence, the fluid model provides a shorter lifespan than the real 
one, which will be confirmed by our simulation later. In the other two traces, 
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Fig. 10: The cumulative distribution 
of mean squared errors of models 
(filelist trace) 


6 Simulation 


Fig. 9: The cumulative distribution 
of mean squared errors of models 
(alluvion trace) 


Fig. 7: The comparison between real Fig. 8: The cumulative distribution 

evolution in filelist trace and models of mean squared errors of models 

(cgbt trace) 
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although the fluid model is more close to the real evolution than the it does in 
cgbt, task-based model is still better. 

To evaluate task-based mode for all swarms, we show the cumulative distri¬ 
bution of the MSE for each swarm in Figure 8,9 and 10. The x-axis denotes the 
MSE between the model and real evolution of the corresponding swarm, while 
the y-axis denotes the fraction of swarms whose MSE less than or equal to the 
corresponding x value. Specifically, in the cgbt trace (Figure 8), the curve for the 
task-based model is on top of that for the fluid model, which means the MSEs of 
the task-base model in most swarms are smaller than those of the fluid model. In 
the alluvion trace and the filelist trace (Figure 9 and 10), our task-based model 
also yield s slightly better accuracy. 
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In this section, we compare the accuracy of our task-based model with the fluid 
model by extensive simulations on a very famous simulator. 
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6.1 Simulator 

As it is very difficult to collect a set of swarms with their whole lifespan recorded 
in a trace for time limitation, we will evaluate our task-based lifespan model 
through simulation. We choose OMNeT++ as the simulation platform, for it is 
an extensible, modular, component-based C++ simulation library and frame¬ 
work. As K. Katsaros et al. has developed a Bit Torrent component for OM- 
NeT++, which provided a set of modules that implemented a fully featured and 
extensible realization of the Bit Torrent protocol [15]. The simulator creates a 
realistic simulation platform, which provides the simulation of underlying net¬ 
work structures. The architecture of the simulator includes full simulation of 
a Bit Torrent system, such as the tracker, peer and the protocol [15]. But its 
churn model is borrowed from the fluid model [6]. We improve the Bit Torrent 
component by making two important changes as follows: 

1. In the original simulator, a peer participates in a swarm and then downloads 
files. When it ends the downloading, it behaves as a seed for a fixed time 
specified by a parameter. We add parameters such as ", A: ， a, to simulate task 
behavior. 

2. We extend the state machine of peer behavior so that peers could participate 
in a swarm repeatedly. When a participating peer finishes an online session, 
we make it sleep for the duration of an offline session and then wake it up for 
another online one. When the task duration is exhausted by online / offline 
sessions, we kill the peer. 

6.2 Accuracy of Task-Based Lifespan Model 

To compare the accuracy of task-based lifespan model with the fluid model, 
we perform an extensive simulation on real parameters, in which we analyze the 
swarms in real traces to obtain the parameters and their variation ranges related 
to task-based model and then we randomly generate parameters in the ranges. 
The results of 615 simulated swarms are plot in the Figure 11, showing the 
comparison of the swarm lifespan obtained from simulation with that from our 
model and the fluid model. In this figure, each point in x-axis denotes the real 
lifespan of a swarm, while each point in y-axis denotes the lifespan that obtained 
by models. The lifespan in the x-axis are sorted in non-descending order of the 
real lifespan. So the points lay on the line oi y = x mean the modeled lifespan 
equals to the real lifespan. As shown in the figure, our model fits the real lifespan 
very well, while the lifespan predicted by the fluid model is small than the real 
one. 

7 Conclusion 

Availability, or more specifically lifespan, is one of the most important issues 
in P2P systems. For lifespan model, existing studies are based on unrealis¬ 
tic assumptions of peer single participation. In this paper, to address multi¬ 
participation, which is more and more widespread in modern P2P systems, we 
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Fig. 11: The comparison of swarm lifespan: modeling and simulation 

propose a novel task-based model, combining multiple peer participations into 
one task and regarding each task as an alternating renewal process that switch 
between online and offline, which is more general, insightful and practical. Based 
on the model, we derive a closed-form expression of swarm lifespan with the help 
of approximations and propose a new metric for lifespan measurement and pre¬ 
diction, half-life. The experimental evaluation based on real traces and extensive 
simulations verifies that o ur model is more accurate than the state-of-the-art 
fluid model. 
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摘要 针对当前安全系统对复杂规则的需求和复杂规则匹配技术的状况，提出了一种 
新的规则表示方式——字符串表达式，并给出了对应的匹配方法——基于扩展的有限状 
态自动机 ( XFA ) 实现大规模复杂规则匹配的算法。字符串表达式可以描述多个精确字符 
串之间的逻辑关系与空间位置关系，从而满足安全系统对复杂特征的描述需求。匹配使 
用二维结构来完成，首先用经典串匹配算法进行字符串的存在性验证，然后将其结果作为 
输入，驱动以表达式中字符串为“字符”的 XFA 完成逻辑关系的验证。基于 XFA 的匹配方 
法的空间效率和时间效率都接近多模精确串匹配算法。实验结果表明，文中提出的方法 
既能满足安全系统对关联特征的描述需求，又能提供高效的匹配性能，较好地解决了大规 
模(万条)的复杂规则匹配问题。 

关键词 串 匹配， 正则表达式，字符串表达式，扩展字符串 匹配， 扩展有限自动机 


0引言 

随着网络应用的不断增多，安全系统(如病毒检 
测、入侵检测、垃圾邮件过滤、垃圾短信息过滤等)中 
过滤规则的表示方法也越来越复杂。例如 Snort [l] 
_!]， Alert tcp 8H0ME _ NET any + g EXTERNAL _ 
NET 1863 (msg ： M CHAT MSN login attempt ”； flow ： to_ 
server, established; content: “USR ”； depth: 4; nocase; 
content ： “TWN” ； distance : 1; nocase; ) 表 7K 要同时匹 
配 “USR” 和 “TWN” 这两个关键词，且这两个词之间 
要有1个字符的距离。同样，对于原本为简单字符 
串的关键词，在实际应用中也可能以各种不同的形 
式出现(例如“模式匹配”可能会写成“模#式#匹# 
配”），这就需要逐一识别各个部分后再进行一定限 
定条件(位置顺序、有限间距等)的判断来进行识别。 
可见，为了表达更精确的语义和上下文信息，需要将 
多个关键词按照一定的顺序和限定条件进行组合， 
形成一个复合的匹配规则，也称为复杂规则。在 
Snort 中有几千条规则，当启用的规则数目为几百条 
时，特征匹配的时间就占整个处理流程的 31 %， 而 
在处理 Web 数据时，最高可以达到 81 %， 是最耗时 


的操作。在 L7-filter [2] 中，启用的规则有 70 条时，匹 
配所占用时间超过整个流程的 90 %。 因此改进匹 
配效率，对提高整个系统的效率具有非常重要的意 
义。 

上述这些问题所需要的复杂规则无法用精确串 
来描述，因此经典的多模串匹配算法如 AC [3] 、 
SBOM [4] 、 WU - MANBER [5] 等无法直接使用。近些年 
来表达能力强大的正则表达式逐渐应用在各类安全 
系统中。由于确定型有限自动机 ( DFA ) 对每个输入 
字符具有 0(1) 的处理速度，适合在线的实时匹配， 
因此目前对正则表达式的研究主要集中在 DFA 的 
匹配方法上。然而 DFA 具有指数的空间复杂度，且 
当多条正则表达式编译在同一个 DFA 中时，也会引 
起内存需求的“爆炸性”膨胀 [6] ，所以对正则表达式 
匹配的研究又都集中于如何降低 DFA 的存储空间 
上，如规则改写和规则分组 M 、合并转换函数 
(^) [7] 、合并状态 [8] 、对输入进行预编码 [9] 及改 
变 DFA 结构 [1 Q ] 等。但由于 DFA 的内存为指数级增 
长,而目前 DFA 内存压缩方法效果都为线性，因此 
对 DFA 进行内存压缩无法从根本上解决内存膨胀 
问题。为了实现大规模复杂规则的实用化，曹京等 
人先后提出了布尔表达式 [11] 和定序窗口布尔表达 


①863计划 (2009 AA 01 Z 437 , 2( X )7 AA 01 Z 442 , 2007 AA 010501,2007 AA 01 Z 474) ,973计划 (2007 CB 311101) 和国家自然科学基金(6_209)资助项目 
@ 織 究方 向:网 络安全 ，信息内繼; 联系 : 一—― 18 1此 
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式 [12] 匹配技术。在定序窗口布尔表达式中所有“与 
关系”关键词必须按照次序全部出现在一个指定大 
小的文本窗 口中。 布尔表达式匹配分为模式串匹配 
层和布尔表达式匹配层两个层次，模式串匹配层首 
先找出所有在布尔表达式中出现的模式串，然后布 
尔表达式匹配层根据匹配的模式串信息来计算布尔 
表达式的值。但是这种表示方法以布尔代数为基 
础，虽然加上了定序和整体窗口限定，仍无法表示 
“元素”之间的相对位置关系。本文结合实际应用的 
需要提出了一种新的规则表示方法一字符串表达 
式，并给出了对应的匹配方法。该方法可满足描述 
复杂特征的需要而且匹配效率高，算法的内存占用 
量在当前硬件资源可接收的范围内。对方法和一些 
代表性串匹配方法进行的对比实验证明，该方法具 
有更高的实际应用价值。 

1字符串表达式匹配 

为了能够满足当前安全系统对复杂语义和上下 
文关联信息的描述需求，本文提出了字符串表达式 
的概念。它通过特定的操作符将多个精确字符串特 
征连接起来，形成表达能力更强的复合规则。它可 
以准确地刻画在同一段待匹配文本中相互关联的多 
个特征之间的逻辑关系。 

1.1 字符串表达式定义 

已知有限非空字符集合称为字母表。下文 
中用^表示字母表中的字符， P 表示字母表中符号 
的有穷序列，称为字符串，即 ： P = PlP 2 … Pm，Pi 
G S, 1 ^ i ^ m 0 

下面首先定义两个操 作符： 

定义 1:“ ！ PU ， 幻”称为否定限定符。否定限 
定符由否定符号!、限定字符串 P 以及距离限定界 
限 | m ， raKm ， re 为整数，且0矣 m 矣 re ) 组成。！ 
Pi\m,n\ Pj 表示在字 符串巧 之前 m 至 n 个字符的 
区间内，不能出现字符串 P ;。 

定义 2:“. 丨 m ， re !” 称为连接符。连接符由通 
配符和距离限定界限 U ， re !( m ， re 为整数，且0 
矣 m 矣 n ) 组成，用来连接两个字符串。 P ; . | m , 
n\Pj 表示字符串巧位于 P ; 之后，且 P ; 与巧之间有 
m 至 re 个任意字符的间隔。 

易知，使用上面两个操作符，可以表示出 Snort 
规则中 content 的所有关于距离和逻辑修饰关系的 
关键字 （ ！， within , distance , depth , offset ) 0 
现在给出字符串表达式的 定义： 


定义3: 

(1) 字符串是原子表达式。 

(2) 如果是原子表达式，那么 \Pi\m,n \ Pj 
也为原子表达式。 

(3) 原子表达式是字符串表达式。含有否定限 
定符的原子表达式称为限定原子表达式，否则称为 
自由原子表达式。 

(4) 将有限个原子表达式用连接符连接起来形 
成的复合表达式是字符串表达式。 

定义4: 给定包含7«个字符串表达式的集合 
= | se 1 , se 2 ，: H % se m | 和文本 r = ht 2 — t n (ti GS , 1 
在文本 r 中找到所有位置 /«« ，使得在其 
之后的个连续字符组成的序列满 
足叫，其中此; 6 SE(l i m ), 称为字符串表达 
式的匹配。 

1.2 匹配算法框架 

从字符串表达式的定义可以看到，表达式由连 
接符将各个原子表达式组合起来而形成。如果将字 
符串表达式中的每个字符串看成是一个广义的“字 
符”的话，那么每一个具体的字符串表达式在匹配时 
除了要满足“字符”相同外还要符合“字符”间的逻 
辑关系和空间限定条件。本文提出的字符串表达式 
匹配方法分为两个层次 :首先 对每一个原子表达式 
和否定限定符中的字符串进行存在性验证，然后对 
各个字符串之间的限定关系和位置关系进行满足性 
判定。 

第一个层次属于多模串匹配问题，可以使用现 
有的经典算法来完成。本文选用基于 DFA 的 AC 自 
动机来实现字符串的存在性 验证。 第二层对原子表 
达式内部以及相邻两个原子表达式之间的限定关系 
进行判定。这类问题可以使用自动机来完成。但由 
于经典自动机 ( NFA ， DFA) 只能够接收字母表中的字 
符，如果要使用它对字符串间的否定限定关系以及 
位置关系进行判定，需要对其转换函数作出必要改 
进，使其能够处理本文所定义的两类操作符。为此 
本文提出了一种扩展的有限状态自动机 XFA 。 这里 
先给出匹配方法的框架， XFA 将在下一节中详细介 
绍。 

对于一个大的规则集，处理方法有两种： （ 1 ) 将 
所有的表达式编译在一起，形成一个混合 XFA 。 （2) 
将每一个表达式单独编译成一个 XFA 。 基于自动机 
的算法所需要的内存与字母表的大小相关，因为自 
动机中每个状态对字母表中每个字符都应该有一个 
转换函数。对于一个大规模字符串表达式规则集， 
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其包含的所有字符串形成的“字母表”通常很大(远 
远大于通常选用的 ASCII 字母表(256))，若将所有 
表达式构建成一个混合 XFA ， 则每个状态需要巨大 
的存储空间来形成转换表。因此本文选用第二种方 
法。虽然将每个表达式单独编译成一个 XFA 时，由 
于其“字母表”很小而降低了内存需求，却同时增大 
了时间复杂度。因为大规模规则集会形成等数量的 
XFA ， 而同时更新数量巨大的 XFA 显然在效率上是 
无法接受的。为了改进这种情况，在使用表达式中 
字符串所构建的 AC 自动机中，每一个接受状态处 
都会被附加一个列表，用来存放这个接受状态所表 
示的字符串和哪些 XFA 相关联，从而在第二层的验 
证过程中，只对相关的 XFA 进行状态更新，这可以 
大大提高匹配效率。从第3节中对实际规则的分析 
中可以看到，每个字符串所关联的表达式数量很少， 
因此可以很快地完成第二层验证。 

从上文可知，本文提出的匹配方法形成了一个 
二维结构，如图1所示。给定一个字符串表达式规 
则集，首先经过预处理过程，抽取出所有的字符串， 
构建成一个基于 DFA 的 AC 自动机，同时以自由原 
子表达式和否定限定操作符中的字符串作为“字 
符”，将每个表达式构建成一个 XFA 。 在匹配时，首 
先将待匹配文本送入 AC 自动机进行字符串的存在 
性验证，当匹配过程到达 AC 自动机的接受状态时， 
就根据这个状态的关联列表去更新相应的 XFA 。 如 
果有某个 XFA 到达接受状态，表示一个字符串表达 
式规则匹配成功。 



图1字符串表达式匹配算法框架 


2扩展有限自动机 

由前面的叙述可知，为了能够匹配表达式中字 
符串之间的逻辑次序关系和空间位置关系，必须对 
有限状态自动机做出必要的改进。 


2.1 XFA 的定义 

定义 5:扩展有限状态自动机 XFA = (Q,P q , 
5, U 0 ， p 0 )， f ) 其中： 

Q ： 有限的扩展状态集合，它记录状态所代表 
的字符串以及与其它字符串之间的限定 条件； 

P Q ： 每个状态的匹配位置的集合； 

S ： 字母表，其每一个字符为自由原子表达式或 
否定限定符中的字 符串； 

s：q xm , 扩展的跳转 函数； 
q 0 ： 初始状态； 

Po ： Pq 的初始值； 

F ： 接受状态的集合，且 f 
从定义可以看出 XFA 与 DFA 相似，但与 DFA 
相比有两个不 同点: ( l ) XFA 多了一个状态匹配位置 
的集合&，它存储了在匹配过程中每个“字符”的 
匹配位置，并将信息提供给跳转 函数; （2) 跳转函数 
8 在进行跳转时，不仅需要考虑“字符”的相等性，还 
需要考虑位置关系的匹配性。 

2.2 XFA 的构建 

字符串表达式是由原子表达式顺序连接而成， 
而一个原子表达式的基本形式为一个自由原子表达 
式（巧）前面有 m 个（，多 0) 个否定限制符，可以 
表示为 

. | , re ；} ! P y | xj ，: K ;.! ! P/+i U;.+i , 乃 + 1 ! • • •! 巧 +» W +® ， 

Yj+iv 1 

下面详细说明一下这段原子表达式的状态结 
构:^在 XFA 中，第一个状态都是初始状态对应 
于定义5中的扑，是进行匹配的初始忒态 3 每个自 
由原子表达式和否定限定符中的字符 串对应 一个状 
态^为了描述方便，给出如下 定义： 

定义6: 由表达式中自由原子表达式中字符串 
生成的 XFA 状态称为自由状态，由否定限定符中字 
符串生成的 XFA 状态称为限定状态。整个 XFA 中 
的状态可以分为3 类: 初始状态，自由状态和限定状 
态。 

定义 7:修饰同一个自由原子表达式的护有否 
定限定符所生成的状态形成的集合称为一个限定状 
态组。 

假设4为初始状态印或者第/ - 1个原子表达 
式中自由原子表达式中字符串生成的状态，那么第 
i 段对应的 XFA 结构如图2所示。图中，每个自由 
状态由实线圆圈表示，每个限定状态由虚线圆圈表 
示，矩形框中的所有限定状态同属于同一个限定状 
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态组。 



图 2 P ；. 丨 m ， re| !PyUy 为 I ! 巧 + iUj + i ， 为 +il … ！巧 + Js +„， 

y^ + „lP i+ i 对应的 XFA 片段(省略了所有目标为初始 
状态的跳转和限定状态之间的跳转） 

这些状态之间的跳转函数定 义为: 相邻的两个 
自由状态之间可以由字符串 P ; 触发一次跳转判断。 
s k 与修饰的每一个限定状态&+„之间可以通过 
字符串 P ;+ „ 进行跳转。同一个限定状态组内限定 
状态之间也可以通过相应的字符串 P /+ „ 进行跳转, 
并且每个限定状态都可以通过 P ; 触发一次向状态 
Sk + u + i 的跳转判断。除此之外的所有跳转目标均为 
初始状态可以看到，如果一个跳转的目标状态 
是由自由原子表达式生成的，那么就需要进行一次 
判断来决定跳转的目标 状态。 

构建完成第 i 个原子表达式时，将以 S “ W+1 为 
起始状态构建下一个原子表达式的状态集合，重复 
这个过程，直到处理完整个字符串表达式。最后一 
个自由状态为 XFA 的接受状态。 

对于每一个 XFA , P 0 中元素的初始值 P s o 为0, 
表示初始状态印已经在0处被匹配，其余元素的初 
始值均为-1，表示未匹配。 

2.3 XFA 的匹配 

从上一节的介绍中可以看出，在一个 XFA 中， 
跳转函数分为以下三种 情况： 

( a ) 从自由状态跳转向限定状态，以及从限定 
状态跳转向限定状态； 

( b ) 从自由状态跳转向自由 状态； 

( c ) 从限定状态跳转向自由状态。 

下面就以图2为例分别给出这三种跳转函数。 

假设表达式已经匹配完第 i - 1个原子表达式， 
需要匹配第 i 个原子表达式，目前的输入为 Pw 为 
当前的活动 状态： 

(1) 如果当前输入 P 6 | P /+ r 丨1(心}，那么属 
于 ( a ) 类跳转，不需要进行判断就直接跳转到对应的 
目标状态 s k + r , 并记录下匹配位置。 

(2) 如果 s 为自由状态，且当前输入 P = ，那 
么属于 ( b ) 类跳转。 （ b ) 类跳转是需要进行距离判断 


的跳转。由于 s 为自由状态，由第 2.2 节可知其为 
原子表达式 Pm 形成的状态（图2中&)，偎设 
distance 为 的匹配_位置和自由状态叹的 EE 配位置 
之间的距离，那么有:如果 distance ^ ,则本次不 
符合跳转条件，但是以后文本中还可能出现符合距 
离的即可能出现成功的匹配，因此不进行 跳转; 
如果 distance ^ n ； ,则不-仅这一次匹配失败，且无论 
后续文本是什么内容，在当前状态下都无法再使它 
跳转到状态 s k + w +1 , 因此不会有成功的匹配，因此 
跳转到初始状态 S 。， 重新开始 匹配； 如果％ < 
distance ^ 说明满足匹配条件，跳转到状态 
^k + w + l 9 将 s k+w+1 的匹配位置设置为的匹配位 
置。 

(3) 如果 S 为限定状态，且当输入 P = P t , 那么 
属于 ( c ) 类跳转。 （ c ) 类跳转是从限定状态向自由状 
态进行跳转，需要进行两次判断。首先判断巧和 
Pi -! 形成的自由状态4的匹配位置之间的距离是否 
满足要求，即进行一次 ( b ) 类跳转判断。唯一不同的 
是,当满足 m ; < distance ^ 不能直接跳转到 

s k+w+1 , 还需要判断与它所有的否定限定符之间 
的限定关系是否满足 要求: 对于和当前状态 S 在同 
一个限定状态组内的限定状态〜 （1 如果 

其中一个状态所表示的字符串曾经出现过且匹配位 
置和之间的距离不满足限定关系，则说明在 
之前某个区域的文本中，存在不该出现的字符串，因 
此，无论后续文本是什么内容，都不同通过当前状态 
到达一个接受状态，因此跳转到 XFA 的初始状态 M 
重新开始匹配。只有所有的限定状态与目标状态之 
间距离都满足限定关系，才能跳转到状态 s k+w+1 , 
并设置其匹配 位置。 

3结果评测 

3.1 匹配效率 

通常串匹配算法的评测指标有两 个:时 间效率 
(匹配速度)和空间效率(最终的匹配结构所占用的 
内存总量），且这两个指标是被分开考虑的。这种评 
测方法忽略了 两点: 一是算法空间的占用对串匹配 
算法本身的匹配速度有很大影响 [B] ，二是由于系统 
的硬件环境(资源)是有限的，算法空间的占用对整 
个系统的效率也有很大的影响。因此，在对一个串 
匹配算法进行评测时，尤其是在针对某项应用来选 
择算法时，应该将两者结合起来 考虑。 

对于一个内存有限且确定的应用环境来讲，当 
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图4不同规模规则集下各种算法的匹配速度 


图3不同 规樓规 则集下各种方法的内存占用 


Xeon ( R )、 主频 2.4 GHz 、 内存 4 G ; (2) 软件 : Cent os 5.2 
Linux 操作系统 、 gcc 4.1.2 编译器。为了能够产生大 
规模规则集，以便测试本文方法的适应性，规则集和 
待匹配的文本生成方法 如下: 将全宋词中的每个句 
子根据其长度拆成最少2段最多4段，通过在段间 
加入连接符和否定限定符将其扩展成字符串表达 
式。 使用同一句子并在加入连接符的地方插入段首 
字的拼音作为填充字符生成待匹配文本。这样，插 
入了拼音的文本是否匹配由同一句形成的表达式完 
全取决于其拼音的长度，具有随机性。如 :“万 家掩. 
|0,4!映翠.|0,3!微间”可以匹配“万家掩7^映翠 
wei 微间”，而“野人只.|0,3!合其.|0,4!中老”却由 
于距离不符合而无法匹配“野人只 he 合其 zhong 中 
老”。表达式个数的变化范围为100~5_，带有否 
定限定符的规则占全部规则总数的50%。步长随 
着规模的增大而增大。为了保证模式串能在文本中 
命中，首先从新浪新闻中获取 100 MB 的文本数据。 
然后在每500个字节的区域内随机位置处插入一条 
待匹配的文本，这样，整个测试数据文本就呈现出整 
体均匀而局部随机的特性，接近真实情况。由于 str - 
exp 算法和 boolexp 算法都使用了基于 DFA 的 AC 自 
动机进行字符串的存在性验证，因此本文中也同时给 
出了使用规则集中所有字符串构建成的 AC 自动机 
的匹配速度和内存需求。结果如图3和图4所示。 


算法的内存占用比较少时，其对整个系统造成的影 
响很小，而当内存占用到达一定程度时，开始对系统 
造成较大影响，当内存占用继续增大并超过一定的 
量(物理内存容量、进程可持有的内存量等)时，将会 
使得算法在当前环境下不可用。这个过程类似于在 
化学反应中的量-效关系 [14 ， 15] 。因此本文提出了一 
个算法效率函数/来反映这种规律，/为一个无量 
纲实数，定义为 


1 + ce_ k(1 -P 

式中： $表示算法的匹配速度(单位时间内处理的数 
据量）， m 表示算法所占用的内存。 M 表示系统可 

供算法使用的内存的上限， c 和&为常数，且& 

为算法内存占用达到极限时的函数值，因此 c 通常 
取值较大。决定了/曲线的形状(内存占用到什么 
程度时算法接近不可用），其取值通常根据系统实际 
情况而定。/的值反应了在一个确定环境中，匹配算 
法的适用程度。 

3.2 评测结果 

在第2节中曾经提到，若第一层 ( AC ) 处理中得 
到一个出现在文本中的字符串，则需要对与其关联 
的所有 XFA 进行更新。因此每次需要更新的 XFA 
数目等于相应字符串在整个规则集中出现的次数。 
表1所示为对 Snort 2.8 中不同类型的规则进行分析 
统计后得出的结果:^表中平均关段规则数目表示每 
一 个字符串特征平均在整个规则集中的多少条规则 
中出现过，可见，在实际应用的规则集中，每个字符 
串所关联的规则数目一般都很少(小于2)，这就说 
明由第一层匹配验证出一个字符串存在于文本中之 
后，需要更新的 XFA 数目很少，因此其整体效率接 
近于第一层所用的多模匹配算法的效率。 


表 1 Snort 规则中的关键词关联统计 


规则名称 

web-misc 

spyware-put 

oracle exploit 

规则数目 

369 

972 

307 2 D 1 

平均关联删数目 

1.14 

1.64 

1.028 1.30 


为了测试本文提出的方法 ( S _) 的性能，对本 
文方法进行了实现，并与文献： 11 ] 中提出的双映射 
表法 ( fcoolesp ) 以及基于 DFA 的匹配在完全栢同的 
环境下进行了测试，对它们的时间、空间性能以及效 
率进行了对比。其中 stresp 和 boolesp 的第一层匹配 
使用了相同的 AC 自动机。 

实验环境:（1)硬件 :曙光 1610、 CPU 为 Intel ( R ) 



«iK 雲 . p:5d 
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图3给出了各个方法的内存需求随着规则规模 
的变化情况。可以看到， DFA 的内存需求随规则数 
目呈指数级增长，且在400条时，内存需求超过 1. 
3 G , 当规则数继续增加时，需要的内存太大而使得 
DFA 无法构建 成功。 其余三种方法的内存需求要相 
对低很多，且整体呈线性增长，在规则规模达到5万 
条时，内存需求为 250 MB 左右。 strexp 和 boolexp 比 
AC 自动机的内存需求稍大，这是因为它们都首先需 
要一个 AC 自动机来做字符串匹配，然后 strexp 还需 
要为每条规则构建一个 XFA , boolexp 也需要额外的 
内存来做映射表。值得注意的是，这两部分额外内 
存都在 AC 自动机所需的内存的1 %以下，这意味着 
strexp 的空间复杂度取决于所用精确串匹配算法的 
空间复杂度。 

图4给出了在规则规模逐渐增大的情况下，各 
个方法匹配速度的变化情况。可以看出，同等条件 
下各种方法中 DFA 的匹配速度最高， strexp 和 bool ¬ 
exp 方法速度低于 AC , 且 strexp 比 boolexp 速度高 
20% ~ 30%。 strexp 、 boolexp 以及 AC 自动机的匹配 
速度都是随着规则数目的增加而降低。在规则数据 
小于1000时，降低的幅度非常小，随着规模数目的 
继续增大，匹配速度降低的幅度也逐渐加大。这是 
由于 strexp 和 boolexp 都首先取决于 AC 自动机的匹 
配速度，因而呈相同规律下降。另外值得注意的是 
strexp 匹配速度与 AC 的匹配速度并不是成固定比 
例，而是下降的幅度要稍大于后者，这是由于同一个 
关键字所关联的表达式的数目增多，使得每次 AC 
成功匹配到一个字符串后需要更新的 XFA 数目增 
多，导致了性能的降低。 

使用 3.1 节提出的效率评测方法对上述三种方 
法进行评测 （M = 1000000( KB ), c = 100, = 10), 

其结果如图5所示。可以看到， DFA 匹配方法的效 
率由于内存的增大而迅速降低，而 strexp 和 boolexp 





图 5 三种方法的效率评测 


的效率降低趋势和匹配速度趋势相同，说明此时它 
们的效率主要取决于匹配速度，而受内存的影响较 
小，这和实际情形是一致的。从图中可知，在规则集 
规模在300条到50000条之间时, strexp 比其他两种 
方法具有更高的效率，即能够在实际应用中取得更 
好的整体性能。 

4结论 

本文分析了当前安全系统对复杂规则的需求以 
及复杂规则匹配技术的现状，提出了字符串表达式 
的概念并给出了匹配方法。字符串表达式通过限定 
符和连接符来描述各种特征之间的逻辑关系和位置 
关系，这种规则表示方法的表达能力强于单纯的字 
符串，能够更好地满足当前安全系统中用户对复杂 
语义和上下文信息的描述需求。本文所提出的基于 



模匹配算法的同时内存需求随规则规模呈线性增 
长。 实验证明，使用本文方法可以实现大规模(万级 
别)复杂规则匹配，具有非常大的实用价值。 


在今后的工作中，我们将进一步完善这种语法， 
使其能够更灵活更全面地表示安全系统中的各种复 
杂特征，并进一步提高匹配效率。 
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Research on complex rules matching on a large scale 

Zhang shuzhuang* , Luo Hao 关关 ， Fang Binxing* ** 

(* Research Centre of Computer Network and Infomiation Security Technology, 

Harbin Institute of Technology, Harbin 150001) 

(** Institute of Computing Technology, Chinese Academy of Science, Beijing 100190) 

Abstract 

In view of current security systems 1 needs for complex rules and the present state of the complex rules matching, 
this paper proposes the concept of the string expression, a new type of rule expression, and correspondingly, gives its 
matching method, an algorithm for complex rules matching on a large scale based on the extended finite automation. 
String expression can describe the logical relation and the position relation between multiple strings. The matching is 
achieved by using the two-level matching structure. First, it checks the existing of each string using the classical string 
matching algorithm, and then drives the extended finite automaton using the previous checking results. Its time complexi¬ 
ty and space complexity are near to the classical string matching algorithm. The experimental result shows that the string 
expression and its matching method can provide a hi^i matching efficiency as well as satisfy the complex request on se¬ 
mantic of security systems. It resolves the complex rules matching problem on the scale of 10000 better. 

Key words : string matching, regular expression, string expression, extending string matching, extended finite au¬ 
tomaton 
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Abstract — Xunlei [1] is a new P2P content distribution system 
which is popular in China. It composes traditional HTTP/FTP 
downloading and P2P content distribution features which at¬ 
tract many people including researchers. Xunlei’s network is 
BitTorrent-like and the measurement is more difficult than other 
P2P networks [2]. There are many constrains on Xunlei tracker, 
so we can not obtain information from tracker easily. Besides 
this, the measurement will encounter some challenges that skew 
the results. Most of previous works on BitTorrent system are 
based on tracker logs. However, we can not obtain tracker logs of 
Xunlei. As far as we know, there is no proposal about precise and 
detailed measurement method that probes the network directly 
in this area. Face to the challenges, we analyze the constrains that 
appear in most BitTorrent-like systems and propose a stratified 
random selection model to describe the behavior of tracker. Based 
on the model, we design a measurement tool called XunleiProbe. 
With the help of our solutions that increase the accuracy of our 
results, we measure a popular swarm for about 22 hours. The 
results show that the average peer coverage of our tool can reach 
about 93%. 

I . Introduction 

Peer-to-Peer network is popular in recent years. Xunlei at¬ 
tracts more and more attention, for its P2SP technology. P2SP, 
which stands for Peer to Server and Peer [1], merges P2P 
networks(BitTorrent/emule) and traditional client-server down¬ 
loading networks(HTTP/FTP/MMS/RSTP). The very different 
BitTorrent-like network which we can touch all peers by 
the help of its NAT compatible feature is world wide and 
involves many junior Internet users. According to the statistics 
of CNCERT/CC [3], the traffic of UDP with port 15000, which 
is the default port of Xunlei, dominates the Internet of China. 
Therefore, there is a large portion of Xunlei traffic in UDP. 

Unlike other BitTorrent-like ones, Xunlei is a private sys¬ 
tem. To our best knowledge, there is no publication about 
protocol details of Xunlei. M. Zhang et al. provided a basic 
introduction about the system [4]. However, they did not give 
detailed analysis and measurements. Based on their work, we 
have done deeper reverse engineering on Xunlei client. The 
result shows that Xunlei has its own private P2P network 
that uses interest-choke mechanism just like BitTorrent. The 
measurement of its BitTorrent-like P2P overlay is very chal¬ 
lenging and important. To give a insightful analysis of Xunlei 
system, we develop a measurement tool called XunleiProbe 


which aims to measure the basic characteristics of Xunlei’s 
P2SP system. 

As we knew, most of publications of BitTorrent-like system 
measurement are based on tracker logs [5] or instrumented 
clients [6]. Tracker logs can give us a bird view of the 
entire overlay. But it is lack of detail information about each 
peer. For example, tracker does not know peers’ BitField. 
In addition, there is little tracker log exposed to public, 
and we can not acquire log files of private systems unless 
tracker owners cooperate with us. Instrumented clients can 
tell us everything about peer that we expect. It is suitable for 
controlled environment but can do little with public ones. It 
is difficult to add measurement functions on a client without 
source code. So a probe is convenient for measurement on a 
private P2P network without the help of the owner. Usually, a 
probe for BitTorrent-like network include two parts [7]. The 
first part of XunleiProbe is used for monitoring the tracker 
and obtaining all peers in the swarm. The second part of our 
probe is used for tracking all peers in the list that the first part 
obtains. 

Our first contribution is designing a method for estimating 
peer list efficiently. We suppose that Xunlei’s tracker returns a 
subset under some rules. Then we analyze a set of subsets and 
find that Xunlei’s tracer does not return a randomly selected 
subset. According to the experiments perform on different 
swarms, we find that the subset is selected under a stratified 
random selection model which has two priority levels for 
different kinds of peers in tracker’s list. Based on the model, 
we build snapshot to estimate the peer list on tracker. 

The second contribution of our is designing a sliding 
window method which reuses the query results and this can 
enhance the sensitivity of the tool and reduce the building time 
of snapshots. In most cases, the time between two snapshots 
can shrink to 10 seconds which is the idle time between two 
queries. 

In order to estimate the accuracy of XunleiProbe, we track 
a special swarm that has about 150 active peers on average. In 
the 22 hours experiment, our tool successfully estimates the 
peer list. Though the churn of swarm influences the tool very 
much, our tool touches 93% peers on average. 

The remainder of the paper is organized as follows. Section 
2 presents related works on BitTorrent-like networks. An 
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Fig. 1. Xunlei system architecture 

overview of Xunlei’s P2SP system is provided in Section 3. 
We demonstrate our peer list fetching method in section 4. 
Section 5 presents our experiment setup and results. Finally, 
we conclude the paper. 

II. Related Works 

Peer-to-peer content distribution system is popular in recent 
years and many publications focus on this area. However, there 
are pitfalls in characterizing the properties of BitTorrent-like 
systems. In [8], Stutzbach et al. pointed out several pitfalls 
in measuring P2P systems. They described how to reduce 
the influence of the pitfalls and analyzed the churn in P2P 
systems. Based on [8], X. Wang et al. went further. They 
proposed a sampling method called RIDE that improved on 
Create-Based Method (CBM). The results of their experiment 
showed that lifetimes of seeds and leechers exhibited power- 
law distributions, but with different shape parameters. To 
reduce the traffic that is cross different ISPs, widely P2P 
traffic blocking is deployed in current Internet. Dischinger 
et al. developed a tool for detecting BitTorrent blocking and 
performed a widely test with detailed analysis [9]. 

III. Xunlei’ s P2SP Network 

Xunlei is a fusion of normal client server downloading 
network and multiple peer-to-peer overlay networks. In the 
newest version, it supports HTTP, FTP, MMS, RSTP, BitTor¬ 
rent and emule. One can download a file with all supported 
protocols at the same time. This benefit from GCID (Globe 
Content Identifier) that generates from the content of a file. 
Each file is assigned with a GCID by which Xunlei client 
can query multiple type of resources. Being different from 
BitTorrent, Xunlei does not need a torrent file to specify a 
task but uses common URL to initiate a downloading task. 
In Xunlei system a URL is represented by a CID (Content 
Identifier), and a GCID can associate with many CIDs or 
URLs. In this way, Xunlei system maintains a URL list that 
holds the same file. 

Figure 1 is the architecture of Xunlei system. When user 
requests downloading task by a URL, Xunlei queries the 
resource index server with the URL first. The server returns 
CID, GCID, file size and a set of URLs which can reach 255. 
Then it queries the server with GCID, and file size, and the 
server returns a subset of seed list of its private P2P network. 


The number of peer in a subset is limited to 132. The third 
query returns a subset of leecher list that is limited to 80. 
At last it queries BitTorrent and emule peers from its own 
BitTorrent tracker and emule server. 

Xunlei has its own P2P network that run with private 
protocol. We track its client behavior with debugging tools 
and split its packets into segments by the hint of read and 
write operations. Fortunately, there are debugging strings in 
its executable file and this can tell us the function of most 
segments. Then we evaluate the discoveries of its protocol 
with packets collected by Wire shark. The private protocol 
is similar with BitTorrent. The downloading mechanism of 
Xunlei is interest-choke like. After the handshaking with the 
other peer, a peer send Interested command and the other 
peer will return a BitField structure. BitField contains the 
information of the part of the file which a peer has. The 
Interested command inform the other peer that the peer want to 
download something from it. Then the peer waits for Unchoke 
command. When it is unchoked, the peer starts to download 
file parts with Request and RequestResp commands. 

Xunlei develop the PTL (Peer Transport Level) protocol 
which can provide reliable transfer service above UDP. In 
Xunlei system, there are many super nodes serve as STUN 
server. And in this way, two peers behind different NAT 
establish a PTL connection by the help of them. 

IV. Fetch Peer List 

The list of all peers is held by a central node, which 
is known as tracker. As far as we know, Xunlei system 
maintains 5 kinds of trackers: server, seed, leecher, BitTorrent 
and emule trackers. In this paper, we only analyze server, 
seed and leecher trackers, and other trackers of Xunlei will 
be introduced and analyzed in our future works. First of all, 
we give some explanations to the server tracker, which is a 
central part in Xunlei system. Server tracker can tell us all 
corresponding URLs that provide the same file, but the tracker 
returns a maximum of 255 URLs in one query. According to 
our measurements, few files’ corresponding URLs can reach 
255. So we can get all URLs with several queries. 

The number of seed and leecher usually vary from several 
hundreds to several thousands. In our experiments, we can 
only obtain 132 seeds and 80 leechers as maximums in one 
query. Besides this, we can not post many queries without any 
idle, for the reason that frequent query will cause unexpected 
block or firewall alarm. Even more, there is no explicit sign 
about the arrival and departure of a peer, so we must judge 
the time of the arrival and departure of peers. To our best 
knowledge, there is no specific query method that can run 
under these constrains. In this section, we propose a novel 
model which depicte the circumstance and design a method 
to build snapshots quickly and sensitively. 

A. Subset Selection Strategy 

Tracker selects a subset of peers with a specific strategy 
and returns it to us when we post a query. In subset selection, 
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Fig. 2. The comparison of the random selection model and the fast query 
results 


Fig. 3. The comparison of the stratified random selection model and the fast 
query results 


random selection strategy is the most common strategy and 
other strategies may be based on it. 

So we assume that the tracker follow the random selection 
strategy. We define the peer list as a set P whose size is M, 
and define query result as subset whose size is n. We merge 
every subset to estimate P, and the size of our estimation is 

A 

M. If the subset is randomly selected from P, then we get the 
reduplicate number in a subset which is newly arrived 

A 


Ai = n — 


MiU 

M 


⑴ 


Then we can get a recursive expression 


A 

Mi + i 


A 

=Mi + n- 


A 

Mj/n 

M 


⑵ 


A 

Specially, we assume that z ^ 0 and Mo = 0. So the random 
selection model is 


M(i) = M[1 - (1 - n/MY] (3) 


To evaluate Xunlei’s subset selection strategy, we build seed 
lists of two files. One of the file is a famous movie called 
TransFormers2 and the other is a game called Zhuxian that is 
popular in China. We collecte subsets one by one and without 
any idle. Each list is built of 80 subsets. The swarm of these 
files are not big, so we can reach the true M in 80 queries. 
We select the size of the first subset as n. Then we compare 
the results of our experiments with the model in Figure 2. 
As it is shown in Figure 2, collections are divided into two 
stages: raising stage and steady stage. Random selection model 
can fit steady stage very well, which gives us a hint that the 
model could infer the list size M• However, the model is more 
sharp in raising stage. Obviously, there are more duplicate 
peers in each subset in our experiments. In other words, there 
are some peers with higher priority and they are selected to 
subsets more frequently. Some researchers pointed out that 
there were clusterings in peer-to-peer networks. Dale et al. 
proposed a tracker modification which introduces clustering 
into BitTorrent can enhance the performance [6]. 

Although the well-known BitTorrent is not adopt this mod¬ 
ification, Xunlei tracker may use stratified random selection 
strategy. According to previous works, the swarm can be 
clustered by time, distance and capability. Usually, the swarm 


is divided into two parts. One part has a high priority to be 
selected and the other has a low priority. Based on Equation 
3, we get a stratified random selection model 

M{i) = M h [l- (l-n h /M h y] + Mi[l- (l-m/MiY] (4) 

,where Mh is the peer number of the part with high priority 
and rih is the subset size that is selected from the high 
priority part. Mi and n/ have the similar meaning. These 
four parameters are determined by the tracker’s configuration. 
To evaluate the model, we perform another experiment on 
the same data. We analyze the query command and find 
that Xunlei tracker will return two kinds of subset size: 120 
and 132. Usually, tracker returns 120 peers as a result of 
special request and then returns 132 peers until we stop the 
downloading task. So we infer that the client request a subset 
of the peer group with high priority and then request subset 
from two groups. So nh is 120 and n\ is 12. Then we obtain 
other parameters by fitting with the first 40 data points and 
show results in Figure 3. 

This model is a better fitting than random ones and can 
fit the query results on most points. So we infer that Xunlei 
divides the swarm by some priority strategy into two parts. 
It is possibly the first BitTorrent-like system that adopts the 
priority strategy on tracker as far as we know. 

To maintain a peer list, we need to solve two problems. 

• How to build a snapshot? Or how to judge a snapshot 
has finished? 

• How to judge a peer’s departure? 

We state our answers to the two problems in following two 
subsections. 

B. Building Snapshot 

For the first problem, Figure 3 tells us that to build a 
snapshot needs about 30 queries for a swarm with about 600 
peers. The number of query depends on the swarm size M. 
Generally speaking, we can obtain M by fitting with some 
known queries. But fitting operation needs much calculation 
and more queries to reach a reasonable result. We find that the 
curves in Figure 3 are asymptotic. So we choose a threshold 
as the end condition for building. In XunleiProbe, we stop the 

A 

snapshot building process when M ^ 95%M. We can get that 

A 

the variation of M by the second model. 

△ = n h (l - n h /M h y + ni(l - ni/MiY 
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Fig. 4. The comparison of fast query and slow query 

When M h = 95%M h and Mi = 95%M Z , (1 - n h /M h y = 
(1 — ni/Mi) 1 = 0.05. So △ = 0.05n = 6.6 when applying 
n = 132. 

The above results are under ideal conditions where there 
is no idle between consecutive queries. Actually, the mea¬ 
surement tool needs a 5 to 10 seconds idle between two 
consecutive queries in long time measurements. To evaluate 
the influence of the idle, we perform another experiment on 
a swarm that has about 900 peers. The results are plotted 
in Figure 4 and the file we intend to download is another 
game which is called ’’rexue” and popular in China, ’’rexue- 
fast” represents the results which are obtained by the queries 
without idle and ’’rexue-slow” represents the results of queries 
with 10 seconds idle. All points in ’’rexue-slow” are above 
that in ’’rexue-fast”. This is because we do not remove the 
offline peers in ’’rexue-slow”. Besides this, there are more 
interesting phenomenons. First, the differences between two 
curves in first 5 points are very small. Second, in steady stage, 
most consecutive points are with small differences except 
a few points. The phenomenon is caused by the arrival of 
peers which is consistent with poisson distribution. Though 
the average number of peer arrival is a fixed value, some peers 
will arrive abruptly. According to our observation, the value 
that the average number of new arrival peers is about 3 or 4 in 
most swarms when they are not in flash-crowd stage. So we 
set the threshold to 10 in our tool. And we stop the building 
of a snapshot when there are 5 consecutive increases which 
are below 10. 

C. Sliding Window Method 

For the second problem, it is hard to determine whether a 
peer is in the list of tracker. But we can find a situation that 
the peer is not in the list of tracker with high possibility. In 
an ideal case, a peer appears in query results periodically. If 
the peer does not appear for consecutive queries, it is not in 
the list with some possibilities. We set the possibility to 95 
percent, so the number of consecutive queries is equal to the 
last query number for building a snapshot. Or we can say that 
the peer does not appear in the latest snapshot. According to 
the pervious analysis, the number is related to the size of peer 
list M. Considering the sensitivity, we need to calculate M 
frequently. Thus we can kick out offline peers quickly which 
makes our estimation of swarm size more close to the real one. 
we calculate M with every snapshot and design the Sliding 
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Fig. 5. Example of Sliding Window Method 
Window Method. 

Figure 5 is an example of the method. Snapshot Sj is built 
from s queries(gi to %+ s _i) and the oldest result qt will be 
removed after we get the snapshot. When we get a new query 
result qi^-s, we add the new result ^ +s to the result queue. 
We need to build a new snapshot from the result queue ( 仏 +i 
to qi+ s ). But there are two possibilities. 

• The number of queries in the queue is equal to or above 
the number to build a new snapshot. 

• The number of queries in the queue is below the number 
to build a new snapshot. 

In the first case, we can build a new snapshot immediately. 
But in the second case, we must wait for more query results. 
In this example, when we get another query result ^_|_ s+ i , 
we can build the new snapshot Sj+i. The detailed algorithm 
is introduced in Algorithm 1. 


Algorithm 1 Sliding Window 
l ： while running = true do 
2 ： qr •<— QueryTracker(tracker) 

3： queue.PushBack(qr) 

4 ： ret •<— BuildSnapshot(queue) 

5： if ret = success then 

6 ： queue. Remo veFront() 

7： end if 

8 ： Sleep(lO) 

9: end while 


This algorithm has two advantages. First, it is scalable 
for the reason that the end condition of snapshot building is 
calculated from swarm size and is suitable for most swarms. 
Second, it provides fine-grained snapshot. Fine-grained snap¬ 
shot is more sensitive to the changes of swarm size. We can 
dig out more detailed characteristics of the swarm. In addition, 
the algorithm discovers new peers more quickly. If we do 
not apply the algorithm, a peer may be found by the first 
query of a snapshot and the tool does not touch it until the 
snapshot finished. Even more, the time to build a snapshot 
will expand while the swarm size increase. Usually, building 
a snapshot lasts about 30 queries and costs about 300 seconds. 
In XunleiProbe, this time can shrink to 10 seconds which is 
the fixed idle time between two queries. 

The building of snapshot is aim at kicking out offline peers 
quickly, and that has nothing to do with the query of peers. 
When we get a subset as query result, we try to connect every 
peer in the result. As we know, all measurement operations 
would cause influences to the network to a certain extent. 
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Fig. 6. (a)The Threshold for Kicking out Offline Peers; (b)The Comparison of Real Swarm Size and Our Estimation; (c)The Coverage Rate of XunleiProbe 
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Fig. 7. The Architecture of XunleiProbe 

For example, some measurement tools pretend as a normal 
client and communicate with other peers, which changes the 
topology of the network and influences the behavior of some 
peer. The influences may skew the results of the measurements. 
To eliminate the influence on topology, the tool needs to be an 
observer but not a participant. However, a good measurement 
tool must guarantee that its results are correct and comprehen¬ 
sive, and at the same time obtain most of the information we 
desired. So we face up to some challenges. 

V. Empirical Results 

After analyzing protocol details and designing probe algo¬ 
rithm, we implement a measurement tool called XunleiProbe 
to shed more light on this system. XunleiProbe is writhen in 
C++ with the help of select functions. To enhance the number 
of concurrent connections that select function supports, we 
modify the kernel of our Debian server which has four Intel 
Xeon E7420 CPUs and 16G memory. We use our institute’s 
network to access the Internet and the server locate in the 
behind of the NAT of our institute. 

Figure 7 is the overview of XunleiProbe which has five 
components. Xunlei system has three types of tracker and 
XunleiProbe has three modules that correspond to different 
types of tracker. Each of the modules posts a query to tracker 
every 10 seconds and stores the received results in result 
buffers except server collector. Server collector sends the 
result directly to server list, for that all server resources can 
be obtained by one query in most situations. Result buffers 
calculate snapshots according to our sliding window method 
and then send them to peer list which refreshes itself when new 
snapshot arrived. The two probe modules try to communicate 
with each elements in peer list or server list periodically 


and log all basic properties we need to log files. When the 
experiment finished, we analyze the log files and compute 
other properties which can not be obtained directly. Because 
of the measurement of server resources is easy to implement, 
we only focus on the measurement of Xunlei’s P2P network 
in our experiment. 

We run XunleiProbe for about 22 hours to mea¬ 
sure the swarm that shares the latest Ubuntu release 
whose URL is ,, http://cdn.releases.ubuntu.com/9.10/ubuntu- 
9.10-desktop-i386.iso”. When the measurement finished, we 
evaluate the accuracy and coverage of our tool. Then we show 
some basic characteristics of Xunlei P2P network. 

A. Accuracy of Swarm Size Estimation 

The swarm size is the basic property of a BitTorrent-like 
system and the key parameter of our measurement tool. Most 
of characteristics such as lifetime are based on this parameter. 
However, there is no authoritative answer for it. In our tool, 
we maintain a peer list that is close to the real one. The list 
appends every query results and kicks out the peer that is 
not connectable and does not appear in query results for a 
long time which is enough for building a new snapshot. We 
maintain a threshold that equals to the number for building 
a snapshot. In Figure 6a, we plot the threshold that in our 
experiment. The value varies from 5 to about 20 according to 
the swarm size. Specially, the threshold is almost a fix value 
when the swarm is steady. Therefore, our threshold is sensitive 
and flexible and this can make our peer list more close to 
the real one. We use our peer list which is a superset of the 
real one to evaluate our method and this will not increase the 
performance of our methods. 

In Figure 6b, we compare the results of our sliding window 
method and the size of peer list. To generalize the results of 
comparison, we normalize the size of peer list to one. We 
can find that most biases fall into the range between -0.5 to 
0.2. Specially, the biases between time 30000 and 50000 are 
more steady that other time. This is because the time between 
30000 and 50000 are in midnight that most peers with high 
churn rate are offline. Therefore, if the swarm is stable our 
estimation will converge to a fix value that is near to the real 
one. 

Generally speaking, the average bias of our estimation is 
-0.1573 and MSE is 1.3694. So our estimation is smaller than 
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Fig. 8. (a)The Number of Active Peers; (b)The Number of Peers that Need to Reconnect; (c)The Number of Peers that are Firewalled 


the real one and this is because we increase the threshold 
for stopping the building of snapshot. However, this does not 
influence the result much. A smaller estimation of swarm size 
may cause kicking out peer too early. As we mentioned, the 
swarm size is not the only criterion for kicking out peers. If 
a peer is active, we will not kick it out in any situation. In 
conclusion, a smaller estimation does not impact active peers 
and does no harm to our measurement. 

B. Peer Coverage of XunleiProbe 

Compared with BitTorrent, PTL is a great improvement of 
Xunlei. In Xunlei’s P2P network, a peer can touch every peer 
theoretically, and that gives us a favor that we can measure 
all peers in the swarm. We plot the coverage of the swarm 
which is the same as pervious in Figure 6c. The coverage 
always fluctuate except a steady stage near the time 40000. 
The reason is that the churn rate is very low in that time. 
Therefore, we can conclude that our tool can reach a perfect 
coverage when the churn is low. In other situations, many new 
peers take part in the swarm and the tool needs a while to 
connect to the peers. So most of the peers that can not touch 
are in connecting status and this is confirmed by our detailed 
log files. Although the coverage is affected by the chum rate, 
most of the coverage rate is above 80 percents and the average 
rate is 93.5945%. 

The analysis of above two empirical results show that swarm 
size and chum rate can influence much about the measurement 
of BitTorrent-like networks. We can only obtain a cumulate 
distribution of the real swarm size when we measure a private 
P2P network. The key problem for estimating the real size 
is kicking out offline peers in good time. Kicking out peers 
too early will cut down the lifetime of peers and enhance the 
chum rate. However, keeping offline peers in the peer list will 
conceal the variation of the swarm. Chum rate is another factor 
which is focused by many researchers. In [8] and [10], there 
are in-depth analysis for this factor. 

VI. Conclusion 

In this paper, we analyze the Xunlei system whose users 
increase rapidly. To our best knowledge, this is the first 
detailed analysis for this complex system. We propose a 
stratified random selection model to describe the sampling 
process which aims to obtain all peer list from tracker. This 
model is suitable for most BitTorrent-like systems. Taking 


advantage of our model, we find that Xunlei adopt some 
strategy to enhance the clustering degree which is rarely used 
in other BitTorrent-like system. Based on our model, we design 
a sliding window method that can build snapshot quickly and 
sensitively. Then we analyze some challenges in querying peer 
information and give some reasonable solutions to increase 
measurement accuracy. At last, we implement a measurement 
tool called XunleiProbe and measure a popular swarm for 
about 22 hours. The result shows that our tool can reach about 
93% peer coverage. 
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Abstract In recent years, botnets, evolving from traditional worms and Trojans, have become one of 
the most effective platforms for many Internet attacks. Botnets have even become a powerful weapon 
for cyberwarfare. Therefore，as defenders, we should pay more attention to botnets — both current 
research findings and their evolution trends. In this paper, we divide the evolution of botnets into five 
phases and analyze their characteristics and corresponding representative botnets in each phase. To 
describe botnets unambiguously, we define botnets formally and classify botnets into four classes 
based on topology structures. In order to have an overall perspective of current research works, we 
divide them into five fields : detection, tracking, measurement, prediction, countermeasures, and 
analyze each field in detail. Based on the comprehensive study of the development law of botnet 
attacks and defense, we exact several inescapable weaknesses inside botnets, which could be exploited 
to defend against botnets. To conclude the paper, we suggest possible countermeasures against 
botnets and predict possible evolution trends of botnets. 
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『□□□□□□，，•□□□□□□□□□□□□□ 

□ □□□□□□□，□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□• 

□ □□□□□□□□□□□□□□□□□，□ 
□ □□□□□□□□□□□□□•□□，□□□□□ 

□ □□□□□□□□□□□□□□□□•□□DO 

□ □□□□□，□□□□□□□□□、□□□□□□ 
□ □□□□□□□，□□□□□□□□□□□□□ 
□ □□□•□□□□□□□□□□□，□□□□□□ 
□ - 2008 □□□□□□ 
(conficker) [1J D □□□□□□□□□□□□，□□ 
□ □□□□ 1 000 □□□□□□，□□□□□□□ 
□ □□□□□□□□□，□□□□•□□□，□□□ 
□□□□□□□□、□□□□□□□□□□□□□ 
□ □□□□-□□□□□□□□□□□□□□□□ 
□□□□□•□□□□□□□□□□□□□□□□ 

□ (CNCERT/COD 2010 □□□□□□□□□□ 

□ □□□□□ 23. 3 □ □ IP □□□□□□□□，□ 

□ □□□□□□□□□□□□□□□□ 4 584 Q □ 

□ □ □ □ [2] . □ □ □ □ (Symantec)□ □ 2010 □ □ □ 

□ □□□□□，□□□□□□，□□□□□□□□□ 

□ □ □ □ □ 7i%n □□□□□□□□□□□ □». 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □ • 

□ □□□□□□□□□□□□□□□□□□□ 

□ ，USENIX □ □ □ 2007 □ □ □ 

□ □□□□□□□□□□ HotBots( Workshop on 
Hot Topics in Understanding Botnets) ， 2008 □ ， 


WORM 口 HotBots □□口 LEET (Workshop on 
Lagei^scale Exploits and Emergent Threats), [] ]J 

USENIX Security Symposium, NDSS, CCS, RAID 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □•□□□□，□□□□□ 2004 □ □□□□□□ 

□ □□□□□□•□□□□□，2006 □ 6 □ □ □ □ 

□ □□□□□ ARO.D □□□□□□□□ DARPA 

□ □□□□□ DHS 3 □□□□□□ GA Tech □ □ 

□ □口 “ ARO-DARPA-DHS Special Workshop on 
Botnet ，，口 □□□□□□□□□，□□□□□□□□ 

□ □□□□□□□• 

□ □□□□□□□□□□□□□□□，□□□ 
□ □□□，□□□□□□□: 

1 ) □□□□□□□□□□□□□□□□□□ 
□ □□□□□□□，□□□□□□□□□□□□□ 
□ □□□□□□□□□，□□□□□□□□□□□ 
□ □□□□□□□□□□，□□□□□□□□□□ 
□ □□□□□□□□□□□□，□□□□□□□□ 
□ □□□□□□□□□、□□□□□□□□□□□ 
□ □□;□□□□□□□□□□□□□□□，□□□ 
□ □□□□、□□□□□□□□□□□□□□□•□ 
□ □□□□□□□□□□、□□□□□□□□□□ 
□ □ □ • 

2) □□□□□□□□□□□□□□□□□□ 
□ •□□□□□□□□□□□□□□□□□□，□□ 
□ □□□□□□□□□□□□□□•□□□□□□ 
□ □□□□□□□□□□□□□□□□□□，□□ 
□ □□□□□□□□□□□□□□□，□□□□□ 

3) □□□□□□□□□□□，□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□ 
□，□□□□□□□□□□□□□□□□□•□□□ 
□ □□□，□□□□□□□□□□□□□□□□□ 
□ □□□□□□□，□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□ 

□ IRC □□□□□□□□□□□□ 

□ Web 2. 0 □□□□□□□ □ 

□ □□□□□□□□;□□□ EC2 □ □ ZeuS □ □ 

□ □□□□□□□□□□□□□；□□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□• 

«□□□□□□□□□□□□□□□，□□□ 
□ □□□□□□□□□□□□□□□□□□□□□• 
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□ □，□□□ P2P □□□□□□□□□□□□□ □□□□□□□□□□□□□□□□□□□□□ 1 

□，□□□□□□□□□□□□□□□□□□□□ □□□□□□□□□□□□□□□□，□□□□□ 


□ □□□□ P2P □□□,□□□□□□□□□□□ 

□ □□□□□□□□□□□，□□□□□□□□□ 
□ □□□□-□ □□□□□□□□□□• 

□ □□□□□□□□□□□□□ (detection )、 

□ □ ( tracking ) 、 □ □ ( measurement ) 、 □ □ 

(prediction) □ □ □ (countermeasure) 5 □ □ □ • □ 

□ □□□□□□□□□□；□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□；□□□□□□□□□□□□□□□ 
□ □□□□□□• 

1 □□□□□□□□□□ 

□ □□□□□□□□□□□□□ 5 □ □ □ ：□ 
IRC □□□□□□□□□□；□ HTTP □ □ 、 □ □ 
P2P □ □ □ Fast-flux，□□□□□□□□□;□ 
Domain Flux ⑽， URL Flux [6] ， Hybrid P2P m □□ □ 
□ □□□□□□；□□□□□□□□□□□□□□ 
□ □□；□□□□□□□□□□□□□□□□□□ 

□ □ □ □ (bot)D □□□□□□ 1993 □ □ □ □ 

□ “Eggdrop Bot'Eggdrop □□□□□□(□□□ 
bot □ □ □ □ □，□ robot □□□)□□□□ IRCQ 

□ □□□□□□□□□□□[，□□，□□□□□ 

□ □□□□□□□□□□□• 1998 □ □ □ □ GTBot 

□ □ !□□□□□□□□□□-□□□ IRC □ □ □ 

□ □□□□□□ -GTBot □□□□□□□□□□□ 

□ □ IRC □ □ □ mIRC. exe. Q GTBot □ □ □ □ □ 
□，□□□□□□□ IRC □□□□□□□□□□□ 

□ □□□□-□□，□□ IRC □□□□□□□□□ 
口 □，口 PrettyPark, Sdbot, Spybot, Rbot, Agobot 

□，□□□ IRC □□□□□□□□□□□□□□□ 

□ □□□□□•□□□□□□□□□□□ ^dbot □ 

□ !□□□□□□□□□□□□ IRC □ □ □ □ □ 

□ □□□□； Agobot □□□□□□□□□□□□ 

□，□□□□□□□□□□□□□□□□□•□□□ 

□，□□□□□□□□□□□□□□□ ，2003 □ □ 

□ □□□□□□□□ (DvlDr)D □□□□□□ IRC 


□ □□□□□□□□□□□□□• 

□ □□□□□□□□，□□□□□□ IRCQ □ 
□ □□□□□□□□□□□□□□□□□，□□□ 
□ □□□□□□□□□□□□□□□，□□□□□ 

□ □ P2P □ □ □ HTTP □ □ • □ 1 □ P2P □ □ □ 

□ □ 2002 □ □ □ □ Slapper, □□□□□□□ 
Sinit ， Phatbot，Nugache □ Storm Cl0_11] □ • □ □ □ 
P2P □□□□□□□□□□□□,□ Slapper □ □ 

□ Sink □ □ □ □ 
□□□□□□□□□□□ Peer,Q □□□□□□□ 

□ □ □ : Phatbot □ □ WASTE □□□□□□□□ 

□ □，□□□□□ ; Nugache □ Bootstrap □ □ □ □ 

□ □□□□ 22 □ !?□□□-□□□□□□□□□ 

□ □ ； Storm □ □ □ □ □ DHT □ □ □ Overnet Q 
□，□□□□□□□□ Sybil □ □;□□•□□□□， 

□ □ □ P2P □□□□□□□□□□□• Bobax ’， 
Rustock □ Clickbot □□□□□□ HTTP □ □ □ 

□ HTTP □□□□□□□□ 

□ Storm n Bobax □□□□□□□□□□□， 

□ □□□□□□□□□□□□□□，□□□□□□ 

□ □□□，□□□□□□□□□ P2PD http n □ 

□ □□□□□□□□，□□□□□□□□□，□□□ 

□ □□□□□□□□□□■ 2008 □ □ □ □ Conficker 

□ □□□□□□□□ Domain Flux □ Random P2P 

□ □□□□□，□□□□□□□□□□□□□□□ 

□ Waledac Cl3] □□□□，□ 

□ □ □ □ HTTP.Fast-fluxQ Hybrid P2P □□，□ 

□ □□□□□□□□□□□□□•□□□a C&C 

□ □□□□□□ Waledac □□□□□，□□□□□ 

□ □□□□□□□□□□□□□□□□□• 

□ □□□□□□□□□ 3GQ □ □ □ □ -□ □ 
□ □□□□□□□□□□□□□□□□□□□□□ 
□ □□，□ □□□□□□□□□□□□□□□□• 
2009 □，□□□□ Symbian □□□□□□□□□ 
Symbian. Yxes [14： □□•□□，□□□□□□□□□ 
iPhone □ iKee.B [15] D □□□□□• 2010 □，□ □ □ 
□ Android □□□□□□□□□ Gemimi [16J □ Q . 


□ □□□□□□□□□□□□，□□□□□□□□ □□□□□□□□□□□，□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□• 2004 □□， □□□□□□ HTTP □□□□□□□□□□□• 
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2010 □□□□□□□□□□□□□□□ rootkit.Q □□□□□□□□□□□□□□□□□ 

StuxnetCQ □ ) C1?] D □ !□□□□□□□□□□□ □□□□□•□ !□□□□□□□□□□□□□□ 

□ □□□，□□□□□□ plccd □□□□□□□) □□□□• 


2002-09 Slapper 2004-05 Bobax Kraren 
The first P2P-based A famous HTTP-based 
botnet botnet 


2008-12 Waledac 
An advanced botnet 
with combinatorial 
structure 


2010-06 Stuxnet 
The first malware successfully 
attacking industnal systems 
having botnet capability partly 


2002-04 Sdbot 
The first widely 
spread IRC-based 
botnet family 


2003*03 DvlDr 
A fast spread 
botnet 


2008-11 Conficker 
An advanced botnet 
with hybrid 
C&C (HTTP and P2P) 


2009-11 
The first i 


^11 iKeeB 
t influential 
mobile botnet 
targeting iPhone 


2002-10 Agobot 
A well designed IRC-based 
botnet making botnets 
widely noticed 


2009-01 Symbian. Yxes 
2007-01 Storm The first influential 
The first practical mobile botnet targeting 
DHT-based P2P botnet symbian 


2010-12 Geinimi 
The first influential 
mobile botnet 
targeting android 


Fig. 1 Timeline of botnets evolution. 

□i □□□□□□□□ 


i.i □□□□□□ 

□□□□□□□□□□□□«□□□□□□□ 

□ □□□□□□》□ xie □ n C18] n □□□□□□： 
□□□□□□□□□□□□□□□□□□□□•□ 

□ -□□□□□□□□□□□□□□□□□□•□ 

□ ,P2P □□□□□□□□□□□□. Gunn cu] n 

□□□□□□□□□□□□，□□□□□□□□□ 

□ 20 □□□『□□□，，『‘□□□ ”，□ □ □ □ □ 
□ □□□□□□□□•□□□□□□□□□，□□□ 

□ □ i . □□□□•□□□□□□□□□□□， 

□□□□□□□□□□□□□□□□□□□□□a 

□ □□□□□□□□□□□□□•□□ Botnet = 
(ZOMBIE，CMD ,^,CCC). 

ZOMBIE ： □□□□□□□□□□□□□□ 

□ . □ □ ZOMBIE=(BOT,S,ACTIVITY). 

bot ： □□□□□□□□□□□□□□□□ 

□ . □ □ {6(^ ， 6c^2 ， … ， 6 队 } ，□ □ 9 boti □ □ 

□ □ □ Zombie, □□□□□□，〃□□□□□□□ 

□ □ □ . 

□□□□□□□□.□□ S={5i ,5 2 ，- 

ACTIVITY ： □□□□□□□□•□□ 
ACTIVITY= {activityi ， activity 2 ， … ， activity n }. 

CMD ： □□□□□□□□□□□□□□•□□ 
CMD= {cmdi , cmd 2 ， • • • > cmd n }. 

&□□□□，□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□•□□ d：BOTXSX 


CMD^BOTXSKACTIVITY^ □ □ dibotXs-H 
cmd) = {boty^Sj X activity) ， i^>0 ， 

CCC ： □□□□□□ (C&c channel). □ □ □ □ 

□ □□□□□□□□□□□□□□□□□□□□• 

□ □ CCC = ( TOPOLOGY, METHOD, 

RESOURCE). 

TOPOLOGY ： □□□□□□，□□□□□□□ 

□ □□□□□□□□□□•□□ TOPOLOGY = 
{ pure C/S, pure P2P，combinatorial structure, 
hybrid structure} 

METHOD ： □□□□□□□□□□□□□□ 

□ □□□•□□ METHOD = {PROTOCAL = { IRC, 
HTTP,Domain Flux,Fast-flux,URL Flux,Kademilia, 
Random, • • •} ,ALGRITHM= { RSA, MD5, RC4, DES, 
AES, BASE64, DGA, UGA 

RESOURCE ： □□□□□□□□□□□□，□ 

□ □□、□□□□□□□;□□□□□□□□□□□ 

□ □□□□□，□□□□ IRC/HTTP/Web 2.0 □ □ 

□ 、 P2P RESOURCE = 

{Domain Name, Authenticode, Key, IRC Server ， 
HTTP Server,P2P Peer ， StepStone，.“} 

1.2 □ □ □ □ 

□ □□□□□□□□□□、□□、□□、□□□ 

□ □□□□□□□□□□□□□□□□□□□，□ 
□ □□□□□□□□□□□□□□□□□□，□□ 

□ □□□□□□□□□□□□□□□■□□ .Cooke 

□ □ C20] D □□□□□□□□ (Centralized), P2P Q 

□ □□□□□ (Random). □ □ , Random □ □ □ □ 

□ P2P-D □ P2P □ □□□□□□ • Leder □ □ W 
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□ □□□□□□、□□□□□ (Decentralized) □ □ 

□ □ □ (Locomotive). □ □ ， Domain Flux □ □ □ □ 

□ □□□□□□□□□□□□□□□□□，□□□ 

□ □□□□□□□•□□ »P2PD □□□□□□□□ 

□ □□□□□•□□，□□□□□□□□□□□•□ 
□ □□□□□□□□□□□□□□□，□□□□□ 

□ □•□□□□□□□□□□□□□ 4 

□、□ P2P □□，□□□□□□□□□• 

□ □□□□□□□□□□{□□ (C/S)D □, 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □•□□□□□□□□□□□□□□□□□□A 

□ □□□□□□□□□□□□□□□□□□□□ 

□ _“□□，，□ □□□□□□□□□□□ □口 IPD □ 

□ □□□，□□□□□□□□□□(□□ 2(a))；'*n 

□ "□□□□□□□□□□□□□□□□□□□□ 

(□ □ 2(b)). □ □，□□□□□□□□□□□□□ 

□ □ □ □ □ IRC ， HTTP ， Fast-flux □ URL Flux, 

□ □□□□□□□□□□□ Domain Flux. □ □ □ 

□ □□□□□□□□□□□，□□□□□□□□□ 
□ □□(□□□□□□□ !?□□，□□□□□□□ 

□ □□□□□□□□□□□□□)□□□• 



Fig. 2 Pure centralized structure. 
□ 2 □ □ □ □ □ 


□ P2P □ □ □ □ □ Pee 广 to-Peer □□，□□□ 

□ □□□□□□□□□□□□□□□，□□□□□ 

□ 3(a)n □□□□□□• 

□ P2P □□□□□□□□□□□□□□，□□□□ 

□ P2P □□□□□□ 

□ □□□□□ Hash □ (distributed Hash table, 



(b) 


DHT)Q Random □□(□□□□□□□□□□ 
Peer). □ □ DHT □□□□□□□□□□□□□， 

□ □□□□□□□□ (index poisoning) □ Sybil □ 
□⑽. Random □□□□□□□□ P2P □ □ - □ □ 

□ □□□□□□□□□，□□□□□□□□□□•□ 
□□□□□□□□□□□(□□□□□□□)， 
Random □ □□□□□□□□• 

□ □□□□□ 2 □ □ □ ： 1)D C/S □ □ □ □ □ 

□ □•□□□□ C/S □□，□□□□□□□□□□□ 

□ □ □ □ P2P □ □(口 3(a)). □□□□□□□□， 

□ □□□□□□□□□□□□□□□□□□□□ 
□，□□□□□□□□□□□□•□□，□□□□□ 

□ □□□□□□□□□□ P2P □□，□□□□□□ 

□□□□□□□•□□□□□□□□□□□□□a 

□□□□□□□□□□□□□•□□□□□□□a 

□□□□□□□□□□□□□□□、□□□□□□ 

□ □□□□□□□□□、□□□□□□□□□□□ 

□ Peer List □□□□□□□□□□□□□.□□□ 

□□□□□□□□□□□□□□□□□□□□□a 

□ □□□-□□□□□□□□□□□□□□□DO 

□ □，□□□□ .2)Q P2P □□□□□□□•□□□ 

□ P2P □ □ ， □ □ □ Peer □□□□□□□□ C/S 
(口 3(b))Q □•□□□□□□□□，□□□□□□ 

□□□□□□□□□□-□□□□□□□□□□a 

□ □□□□，□□□□□□□□□□□ P2P □ □ □ 
□□□□□ P2P □□.□□，□□□□□□□□□ 

□ □□□□□□□□□□□□□□□，□□□□□ 

□ □□□□□□ P2P 

□，□□□□□□□□□□□□□ P2P □ □ □ □ 
□，□□□□□□□□□，□□□□□□□□□□□ 

□ □ c&cn □，□□□□□，□□□□□□□□□ 

□，□□□□□□□□□□□□□□□□，□ 

Waledac □□□□□□□□□□□□□□• 

□ □□□□□□□□□□□□□□□□-DO 

□ □□□□□□□□□□□□□□□□•□□， 

Conficker D D D D D Domain Flux □ Random 口 

□ • □ Domain Flux □□ 口 ，□口 □ Random □□口 

□ □□□□，□□□□□□□□•□□ dht □ □ □ 

□ P2P □□□□□□□ Bootstrap □□□□□□□ 

□ □□□□□□□□□□□□□□，□□□□□□ 

□ □□□，□□□□□□□□□□ Domain Flux □ 


Fig. 3 Combinatorial Structure. 
□ 3 □ □ □ □ 


□ □ □ Bootstrap □□□□，□□□□□□□□ 

□ □ • 


71994-2015 China Academic Journal Electronic Publishing House. All rights reserved, http://www.cnki.net 




1320 


□□□□□□□□ 2011 , 48 ( 8 ) 


□ □□□□□□□□□□□□□ C24] .D □ □ □ □ □ 

□ □□□□□□，□ □□□□□□□□□□□□□• 
□ □□□□□□□□□□，□□□□□□□□□□ 

□ □ □ □，□□□□□ Nepenthes □ Argos ;□□ □ 

□ □□□□□□，□□□□□□□□□□(□□□□ 
□ )，□□□□□□□□□□□□□□□□，□□□ 

□ □ Capture-HPC. Nepenthes □□□□□□□□ 

□ □□□□□□□□ »Argos □□□□□□□□□ 

□ □□□□□□□ 0-Day □□□□□□□□□； 
Capture-HPC Q □□□□□□“□□□□，，(□□□ 

□ □□□□□□□□□□□□□□)□□□□□□ 

□ •2)D 

□ □□□□□□□、□□□□□□□□□□□□□ 

□，□□，□□□□□□□□□□ SandMalware □ 

□ □□□□□□□□□•□ SandMalware □ □ □ 、 

□□、□□□□□□□□□□□□□□□，□□□□ 

□ □ □ □ Sandbot CL>:,J . 

□ □□□□□□□□□□□□□□□□□□□ 

□ □□ 2DDD.□□□□□□□□□□□□-□□ 

□ □□□□□□□□□□□□□□□□；□□□□ 
□ □□□□□□□，□□□□□□□□□□□□□ 

□ URL □□□□□□□•□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□， 

□ □□□□□□□□□□□□ ， P2PD □□□、□□ 

□ □、□□□□ ,PPC(pay-pe^click)D □ □ □ □ □ 

□ isp □ □ □ 

□ □ (□ TCP 135/445 川 □□，□□□□□□□□ 

□□□□□□□□□□□•□□□□□□□□□a 

□ □□□□□□□，□□□□□□□□□□□□□ 
□ □，□□□□□□□□□□□□□□，□□□□□ 
SandMalware □□□□□□□，□□□□□□□□• 

□ □□□□□c&cn □□□□□□. 

2.2 □□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□，□□□□□□□□□□□ 

□ □□□□□□□•□□，□□ irc □ □ □ □ □ □ 

□ □ IRC □□□□□□□□□□□ PING/PONG 

□ □ □ HTTP □□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□；□□ 
Kademlia □□□□□□□□□□□□□□□□□; 
□ □□□□□□□ DDoS □□□□□，□□□□□ 
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□ □□□□□□，□□□ IP □□□□□□□□□□ 

□ □ □ □ □ L55] ； 3)D □□□□□□□，□□□□□ 

□ □□□□ as □ □ □ □ □ C35] ； 4)n n ip □ □ □ □ 

□ □□□，□□□□□□□□□□□□□ - 34] ； 5)n 

□ □□□□□□□□□□□□□□□□ [34] . □□ ， 

□ □ DDoS □□□□□□□□，□□□□□□□ 

□ _ • □ □ DDoS □□□□□□□□□□，□□□ 

□ □□•□□□□□□□□□□□□□□□□□□ 
□ □□□，□□□□□□□□□□□□□，□□□□ 
□ □□□□□□□□□• 

3 □ □ □ □ 

□ □□□□□□□□□□□□□□□□□□□ 
□ □□□□□，□□□□□□□□□□□□□□□ 

□ □ ： DC&cn □□□□□□□、□□□□□□□• 

□□□□□□□□□□□□□，□□□□□□□□ 

c&c □□□□□□•□□□□□□□□□□ c&c 

□ □ —— □ □□□□□□□，□□□□□□□□•□ 
□，□□□□□□□□□□□□□ c&cn □ □ □ 
□ □□□，□ □□□□□□□□□□□□□□□• 
3)D □□□□□□□□□□□•□□□□□□□□ 

□ □□□□□□□□□□□-□□□□□a C&C 

□□□□□□□□□□-□□□□□□□□□□a 

□ □，□□□□□□□□□• 

□ □□□□□□□ C&C □□，□□□□□□ 
C&CQ □，□□□□□□□□□□□□□ 2Q ： 1)D 
□ □□□□□□□□□□□□□□□□□□□□□ 


□□□□□□□□□□□□□□□□□□□a 

□ □□□□□(□□ NetFlow □□)，□□□□□□ 

□ □□□□□□□□□□□ NetFlow □•□□□□□ 
(□□□□□□ bytes-pei^packet, bytes-pei^second, 
packets~per^flow)、□ □□□(□□□□□□□□□ 

□ □ □ □ !?□□□)、□□□□□□(□□□□□□ 

口、 □□□□)□□□□□，□ □□□□□□□□□□ 

□□□，□□□□□□□□□□□，□□□□□□□ 

□ □ • Gu □ □ [19 ' 2M7] D □□□□□□□ BotHunter, 
BotSmffer □ BotMiner 3nDnDDDDDDDD 

□ □□□，□□□ , BotMiner □□□□□□□□□ 

□ □□□□□□□□□•□□□，Karasaridis □ 

□ □□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□ IRC □ □ □ □. 

□ □ C&-CQ □□□□□□□□□□□□□□ 

□ □□□□□□□□□□□-□□□□□□□DO 

□ □□•□□□□□□□，□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□-□□□□DO 

□ □□□□□□□□□□，□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□•□□□DO 

□ □□ C&cn □□□□□□□□□□□□□□□ 

□ □□□□-□□□□□□□□□□□□□□□a 

□ □ □ □ □ C29] • 

2.3 □□□□□□□□ 

□ □□□□□□□□□□□□□□，□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□ 

□ .1)0 IRC □□□□□，□□□□□□□□□□ 

□ □□□□□□□□□□□ (nickname ) ，口 □ □ □ 

IRC 

□ □ □ C3 °- 31 -;2)D Fast-flux □ 

□ □□□□□□ IPD □ □ AS □□□□□□□□ 

□ NS □□,□□□□□□□□□□□(□□ Round- 
robin DNS [] Content Distribution Networks)]][][] 

口， □□□□□□□□□□□□□□□□□□□□□ 

□ □ □ □ [4 ’ 气 □ Fast-flux □□□□□，□□□□□ 

□ □□□□□□□□□□□□□□□ Fluxbot.D □ 

□ □□□□□□□□□□□□□□□□，□□□□ 
□ □□□□□□□□□□□□□□□□□□□ L :' 

□ □ IRC □□□□□□□□□□□□□□□ 

□ □□□□□□ payload，□ □ □ □ □ □ NetFlow 
□，□□□□□□□□□□□□□□□□ Payload 
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□ □ 
□ □ 
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□ □ □ ； 2)Q □□□□□□□ Sandbot. □ □ 2 □ □ 

□ □□□□□□□□ C&CQ □，□□□□□□□ 

□ □□□□□□ C&CQ □. 

3.1 □□□□□□□□□□□ C&CQ □ □ □ 

□ □ □ C&C □□□□□□□□、□□□□□ 

□ □ , Caballero □□_□□□□□□□□□□□□ 

□ □□□□□□，□□□□□□□□□ Dispatcher. 

□ □□□□□□□ Sandbot, □□□□□□ (taint 
propagation) □ □□□□□□□□□□□□□□， 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□•□□，□□ 4 bq □ □ n 

□ □□□□□ 2 0 □ □ □ □ □ socket connect □ 

□ - !?□□•□□□□□□，□ 

□ Dispatcher □ □ □ □ □ □ MegaD [37 ' 38] □ C&C □ 

□ • Cho □ □ C39] D □□□□□□□□□□□□□□ 

□ □□□□□□ C&C Dispatcher 

□ □ □ □ □ Sandbot□□□□□□□□□，□□□ 

□ □□□□□ “Bot Emulator^ □□□□□□□□ 

□ □□□□□□□□□，□□□□□□□□□•□ 

□ □□□□□□□□ 
□ □□□□□□□•□□□□，□□□□□ □ 

□ □ 4nDDDDDDD MegaD □□□□□□，□ 

□ □□□□□□□□□□□□□□ 1/9. 

3. 2 □ □ Infiltrator □ □ □ □ □ 

□ □ 5 . 

□ □ C&CD □□□□□□□□，□□□□□□□ 

□ □□□□□□□□□□□□□，□□□□□□□ 
□ □•□□□□□□□□□□□□□□□□□□□ 
(Infiltrator). Infiltrator □□□□□□□□□□□ 

□ □□□，□□□□□□□□□□□□□• 

Infiltrator □ □□□□□、□□□□□□□，□ 

□ Infiltrator □□□□□□□□□□□□ C&C □ 

□ -□□□□□□□□□□□□□□□□□□DO 

□ □□□□•□□□□□□□□□□□： Infiltrator 

□ □□□□□□，□□□□□□□□□□□，□□□ 

□ □□□□□□□□□□• Infiltrator □□□□□□ 

□ C&C □ □□ Infiltrator □□□□□□□□□ 

□ □□□□□，□□□□□□□□□□□□□□□• 

□ - Infiltrator □□□□□□ Tor 

□ □□□□□□□□□□• 

□ □ IRC □ □ □ □ -Rajab^D Freilmg [41] Q 

□ □□□□ IRC □ □ □ □ C&C □□□□□，□□ 

Infiltrator □□□□□□□□□□□□□• Cho □□ M 


□ □ □ □ □ MegaD C&C □□□□□□，□□ 
Infiltrator □ MegaD □□□□ 4DnDDD-DD 

□ □，□□□□□□□□□□□□□□□□□□□ 

□ □□，□□ 口 Google Hacking □□口 MegaD 口 

□ □□□□□□□□□□，□□□□ MegaD Q Q 2 

□ □□□□□□□□• 

3.3 n □ Sandbot□ □ □ □ □ 

□ □□□□□□□ Sandbot, D □□□□□□ 

□ □□□，□□□□□□□□□□□□• Sandbot □ 

□ □□□□□□□□c&cn □□□□□□□□□ 

□ ,□□□□ C&-CQ □□□□□□□□□□□•□ 

□ □□□□□，□□□□□□□□ Sandbot □ □，□ 
□□□□□□□□□□ Sandbot □□□□□□□ 
□，□□□□□□□□□□□•□□□□□□□□□ 
□□□□□□□□□□□□-□□□□□□□□a 

□ □□□□□□□□□□□□□□□□□□□• 

Sandbot □ □□□□□□□□□: 1) □□□□□□ 

□ □□□□□□ Sandbot Sandbot □ 

□ Sandbot □ 

□ □□□□□□□□□□□ C&CQ □□□，□□ 

□ □□□□□□□□□□□□、□□□□□□ c&c 

□ □，□□□□□□□□□□□□□，□□□□□□ 

□ □ -2)D □□□□□□□•□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□ Sandbot □□□□□□□•□ 

□ □□□□□□□□□ Sandbot. □□□□□□□ 

□ □□□□□□□□□□□□□□、□□□□□□、 
□ □□□□□□□□□□，□□□□□□□□□□ 
□□□□□□□□• Sandbot □□□□□□□□□ 

□ □ □ 4Q □ • 

Caballero □ □ [ 37] □ □ Dispatcher □ □ □ □ □ 
MegaD □ C&C □□，□□□□ Sandbot □ MegaD 
□□□□•□□□□□□□□□□□□□ Sandbot 
□□□□□□□□□□□□□，□□□□ Sandbot 

□ □□□□□□□□□□，□□□□ Sandbot □ 0 

□ □□□□□□□□□□□□□□ .JohnQ □ [4Z] n 

□ □□□□□□□ Botlab □□□□□□□□□□ 

□ □□，□□ Botlab □□□□□□□□□□□□□ 

□ □□□□□□，□□□□□□□□• Gri 歷 d [43] □ 
Kanich [44] □ □ □ VMware □□□□□□ Storm 
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□ □□□□□□□□□□•□□□□□□□□DO ： 

1 )口 □□□□□□□□□□，IRC □ HTTP □ □ □ 

□ □□□□□□□□□□ IRCQ □□□，□□□□ □ 

□ □□□□□□□□•□ http □□□□□□□□ 

□ □)□□□□ .2)0 □ P2P □□□□□□□□□□ 


• Zombie Intercept 



Fig. 4 Relationship between Bot and Sandbot. 

□ 4 Bot □ Sandbot □ □ □ □ □ 

Sandbot, □ □□□□□□□□，□□□□□□□□ 

□ •□ □ □ ， Balt 繼 □ □ [4S 」□ VMware □ □ □ □ □ 

□ Waledac Sandbot,Q □ Sniffer 口 □□□□□□• 

□ □□□□□□□□□□□□□□□，□□□ 

□ □□□□□□□□□□□□□□□□• 

Ramsbrock □ □ L46] 口 IRC □□ Q □□□□□□-□ 

□ □□□□ IP □□□□□□□□□□□□□□□ 

□ □□□□□□•□□□□□□□□□□DO 

Sandbot□□□□□□□□□，□□ Sandbot □ □ 

Sandbot □ □ □ □ 

□ □□□□□，□□□□□□□□□ 4BQ □ □ 

□ □□□□□□□□□ (ste^stone)D Q Q IRC □ 

□ ID 

□ □□□□□□□□□□□，□□□□□□□□□ 

□ □□□ IP. □□□□□□□□□□□□□□□ 

口 ， □□□□□□□□□□□□□•□□，□□□□ 

□ □□□□，□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□•□□，□□□□□□□□ 
□，□□□□□□• 


□ □ P2P □□、□□□□□□□□(□ Crawler, 
Sybil,Poisoner)□ □ DHCP,NAT □ □□□□□□ 

□ □□•□□，□□ P2P □ □ .Crawler Q □ , Sybil 

□ □ □ DHCP □□□□□□□□□，□ NAT □ □ 

□ □□□□□□□□□□□，Poisoner □ □ □ □ □ 

□ □□□□□□□□»□ □□□□□□.3)DDDD 

□ □□□□□□、□□□、□□□□□□□、□□□ 
□□、□□□□□□□□□□□，□□□□□□□□ 
□ □□□□□□□•□□□□，□□□□□□□□□ 
□ □□□□□□□，□□□□□□□□□□□□□ 

□ L13 ' 47] -D □，□□□□□□□□□□□□□、□□ 
□□、□ □□□□□□□□□□□□□□□□• 

□ □□□□□□□□□□ 5 □ ： 1) □ □ 

Crawler Q □ □ □ □ ； 2)Q Q Sybil □ □ □ □ □ ; 3) 

□ □ PeerlistPoisoner □ □ □ ;4)[] □ Sinkhole [] 

□ □ □ □ ； 5)Q □□□□□□□□□□•□□，□□ 

□ □□□□□，□□□□□□□□□□□□□□□， 

□ □ □ C&CD□. 

4. 1 □ □ Crawler □ □ □ □ □ 

Crawler □ □ Infiltrator □ □□□□□□□，□ 

□ □□□□□ P2P □ □ □ □ . Crawler □ □ □ □ □ 

□ □ □ □ C&C □□□□□□ Peer.Q □ □ Peer Q 

□ □ □ □ Peer □□□，□□□□□□□□，□□□ 

□ □ □ □ P2P □□•□□□□□□ .Crawler □ □ □ 

□ □ □ □ □ PeerD □□□□□□，□□□□□□□ 

□ □□□□□ Peer □□□□□• Crawler Q P2P 
Infiltrator □□□□□□:□□ P2P □ □ □ □ □ 
Infiltrator □ □□□□□□□□□ Peer, □ □ □ □ 

□ □□□□□;□ Crawler □□□□□□□□□□， 

□ □□□□□□□□□□□□ Peer. Crawler □ □ 

□ □□□□□□□□□□□ NAT □□□□□□□ 

□，□□□□□□• 

Kanich □口 Ll1 」 口 □ □ □ □ Stormdrain 口 Crawler 

□ □ Storm □ □□□，□□□ DHCP,NAT,□ Q Q 

□ □□□□□□□□□□□□□□□□□□□□， 

□ □□□□□ IP □□□□□□□ Node ID □ □ □ 

□ □ □ • 

4.2 □ □ Sybil □ □ □ □ □ 

□ □ Sybil □□□□□□□□ Infiltrator Q □ 

□ □□□□□，□□□□□□□□ DHT n □ □ 
P2P □ □ □ □ ■ Sybil □□□□□□□□□ IP □ □ 

□ □□□□□□□□□□□□□□□□□□ Peer 

□ Peer Sybil 
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□ □ 
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□ □□□□ 3nnnD ： l)DDDDD Crawler Q 

□ □ □ Peer □□,□□□ Sybil □□□□□□□□ 
Peer,Q □ □ □ Sybil □□□□□□□ Peer □ □ □ 

□ □□□•□□ Crawler Q Sybil □□□□□□□□ 

□ -2) Sybil □ □□□□□□，□□□□□□□□□， 

□ □□□□□□□ Peer □□□□□□□• 3) Sybil 

□ □□□□□□□□ Key □□□□□□□□ Node 
ID(n □ KeyQ Hash Q )□ P2PQ □，□□□□ □ 

□ □ □ □ □ Sybil n □ • 

Holz [10] D Kang [48] Q □ □ □ □ □ Storm Q Q 

□ □ C&C □□□□□，□□ Crawler □ Sybil □ □ 

□ □□□□□□□□□• Kang □ □ C48] □ □ □ □ □ 

□ Sybil □ □□□□□□□，□□□ 40%Q □ □ □ 

□ □ NAT .Crawler □□□□□□□ 

□ □□□□□□□□□ Sybil □□□□.□□ ,Kang 

□ Sybil □ 

□ □□□□□□□ (total size) 口 □□□□□□□• 

4. 3 □ □ PeerlistPoisoner □□口 

□ □□□□□、□□□ pee 广 list □ P2P □ □ □ 
口 ， □□□□□□□□□□□ IP □□□□□□□□ 
Peer □ □ □ □ peer-list, □ □ □ □ □ peer-list，□ □ 

□ □□□□□□ PeerQ，□□□□□，□□□□□□ 

口 peer-list □□□□□□□□□ PeerlistPoisoner. 

□ □ □ □ ， PeerlistPoisoner □□□□□□□，□□ 

□ □□□□(□ 6Q )• 

Stock □ n C13] n □ □ □ □ Walowdac □ 
PeerlistPoisoner □ □ □ □ Waledac □□□□□□ 
Repeater (Q □□□□□ !?□□□□□)□□□ 
Peer Q □ □ □ peei^list, [] □ □ □ Spammer (Q Q 

□ □ NAT □□□□□□□□)□ Repeater □ □ □ 

□，□□□□□□□□• 

4.4 □ □ Sinkhole □ □ □ □ □ 

□ □□□□□□□□□□□□□□□□□□□ 

□ □□□□( domain name )□□□□□□□ 
(domain generation algorithm, DGA) □ □ □ □ □ 

□ □□□□□□□□□□□□□□□□□□□□ 

(□ □ Sinkhole)□ □，□ □ □ Sinkhole □ □ □ □ □ 

□ □□□□□□□□•□□□□□□□□□□DO 

□ □□□□□□□□□□□□□□□□□□，□□ 

□ □□□□□□ Sinkhole □□□□□□□□»□ IP 

□ □ □ □ □ Sinkhole, □ □□□□□□□□□• 

Stone-Gross® □ □ □ □ □ Torpig □ □ □ □ □ 

□ □□□□□，□□ Sinkhole □□□□□□□□， 


]□ □ 18 Q □ Torpig □□□□□□，□□□ 
GB □ □ □ □ □ _ Dagon □ □ [49] □ □ Sinkhole 
]□□□□□□□□□• 

□ □□□□□□□□□□ 

]□ Fast-flux □ □□□□□□，□□□□□□ 

]□ □ □ □ (mothership) □ □□□□□□，□ 

]□□□□□□□、□□□□□□ IP □ □ □ □ 

uxbot).D □，□□□□□□□□□□□□□ 
)ot_ □ □ IRC □ HTTP □□□□□□□，□□ 
]□□□□□□□□□□，□□□□□□□□ 
]□□□□□□□□□□(□ TTL □ □ □ □ 
]□，□□□□□□□□□□□□□□□□，□ 
]□□□□□□□□□□□□□□□-□□□ 
]□□□□□□□□□□□□□□□□□□□ 
]□□□，□□□□□□□ “DNS snooping". 
DNS snooping □□□□□□□□□□□□□ 

]□ • 

□ □ 

: rawler □ Sybil DDDDDDDD Infiltrator □ 

]□•□□□□ 、 Infiltrator 、 Crawler □ Sybil 

]□□□□□ 5 □□: 



frequency 

5 Relationship among Bot, Infiltrator, Crawler 
and Sybil. 

5 Bot ， Infiltrator,Crawler □ Sybil 口 □ □ □ □ 

]□□，□□□□□□□□□□□□□□□□ 
]□□□□□□•□□□□□□□□□□，□□ 
Sinkhole □ □，□□□□□□□□□□□□□ 

]，□□□□□□□□□□□□□□□□□□ 
]□□□;□□□□ DHT □ □ □ P2P n □ □ 

□ □ □ Crawler □ Sybil □□□□□□□□; 
]□ □ □ pee^list □ □ □ P2P □□□□，□ □ 
PeerlistPoisoner □ □ □ □ • Sinkhole, Sybil □ 
[stPoisoner □□□□□□□，□□□□□□□ 

]□ □ □ □ NAT □□□□□□□□□□□. 

]□□□□□，□□□□□□□□□□□• 


Crawler 


[ o [ 

D 7 D 5 

D D D 4* 


I — I I_I I_I 

□ □ 

D D D 


Flxl 
( u 
FI 


I_I I_I I — I I_I I_I I_I ， I_ - rv I — _ I_I 

DDX DDDDD6 D D 
DDDDDDDD 4. D D 


Fig 


I — I I_I 


I_I I — I 


I_I I_I 


□ □□□.□□[□erl □口 


D D D D D D D 


e 

p 


D D 
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□ □□□•□□□□□□□□□□□□□□□DO □□•□□□□□□□□□□□□□ 

□ □，□□□□□□ 3(a)Q □□□□□□•□□□ □□□□□□□□•□□，□□□□□□□□□□□ 

□ □ □ □ □ =!)□ □□•□□□□□□□□□□□□ □□□□□ !?□□□□□□□□□□□□□-□□ 

□ □□□□□□□ -Bootstrap □□□□□□□□□ □□□□□□□□□□□□□□□• 

□ □□□□□□□□□□□- Wang □ □ [51] □ □ 

□•□□□□□□□□□□□□□□□□□□□a 

□ •□□□□□□□□□□□□□□□□□□□a 

□ □□□□□□□□□□□□□□ IP-D □□□□ □□□□□□□□□□□□□□□□□ “Sensor”, 

□ □□、□□□□□□□□□□□□，□□□□□> □□□□□□□□□□□□□□，□□□□□□□ 

P2PQ □，□□□□□□□□□□，□□□□□□□□□□ 

□ □□□□□□□□□□□□ IP □□□□□□□□□•□□□，Hund 

Vogt □ □ □□□□□□□□□□□□□ □□□□□□□□□□□□，□□□□□□□□□ 

□ □□□-□□□□□□□□□□□□□□□DO □□□□□□□□□□□□□□□□□□□□□□ 

? 1994-2015 China Academic Journal Electronic Publishing House. All rights reserved, http://www.cnki.net 


□ > Waledac, MegaD, Mariposa 

□ Rustock □□□□□□□□□□□□□□□□□ 

□ □□□□□□，□□□□□□□□□□•□□□□ 

□ □-□□□□□□□□□□□□□□□□□DO 


□ □□□□□•□□□□□□□□□□□□□□□ 
□ □□□，□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□• 


Availability 


Confidentiality 


Authenticity 


Table 1 The Design Objective of Botnets 
□ 1 □□□□□□□□ 


Object 

Property 

Capability 

Controllability 

Robustness 

Recoverability 

The capability to counter (crucial) nodes disabled 

The capability to recover C&-C channel in case of temporal “shutdown” 


Monitoring The capability to monitor the status of bots and active size 

Efficiency The speed to transfer commands to majority of bots 

Scalability The capability to manage large-scale botnets 

Selectivity The capability to manage specific sub-botnets 

Stealth The capability to counter botnet detection, tracking, and measurement system 

Confidentiality The capability to counter information analysis 

Cost-Effective The capability to minimize the cost of resources 

Anti-Hijacking The capability to counter “Fake-Command Injection Attack” 

Intellisense The capability to identify honeypots? infiltrators ， sybils，and crawlers etc 


5.1 □□ PC □□□□□□□□□ 

Wangn □ t7] n □□□□□□□□□□□□□ 


P2P □□□□□□，□□ 3(b)Q □•□□□□□□ 

□ □ ： i)n □□•□□□□□□□□□□□□、 □口 
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□□□□□□□□ 2011 , 48 ( 8 ) 


□ □□□□•□□ snananDDDDDDD 

□ □ . 

□ □ □ □ □ DHT □ P2P □□□□□□□□□ 

□ □□，□□□□□□ , Starnberger Q □ [53] □ □ □ 
Overbot □□•□□□□□□□□□□□□□□□ 

□ □□□□□□□□□ Index Key, 口 □，□□□□ 

口 □□，□□□□□□□□□□□□□□□□ 
Index Key, 口 □□□□□□□□□•□□□□□，□ 

□ □□□□□□□ Sensors □□□□□□、□□□ 

□ □□□□□□□□□□□□□□〈Hash Key, 
Command). □□，□□□□□□□□□、□□□□ 

□ □ □ □ (sensors) □ □□□□□□，□□ P2P □ □ 

□ □□□□□□，□□□□□□□□□□□□□□ 

□ □，Smgh □ □ [54] □□□□□□ Email Q □ 

□ □□□□□□□□□□□□□•□□□a « 5] D □ 

□ □ □ UserlDCQ □□□)□□□□□□□□□□ 

□ Email □□□□□□□□□• Hund □ □ L52] □ □ 

□ □□□□□□□□□□，□□□□□□□□□□ 
□ □□□□□□□□、□□□□□、□□□□□□□ 
□ □□□□□•□□□□□□□□□□□□、□□□ 

□ □□□□□□□□□□(□ {DDoS,Spam})，D Q 

□ □□□□□□□□□，□□□□□□□□□□•□ 
□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□□(□ DDoS#IP)Q，□□□□□、□□□□ 

□ □ □ □ • 

5.2 □□□□□□□□□□□□□□□ 

□ □□□□ pc □□□□□□□□□□□□» 
□ □□□□□□□□□□□□□□□□□□□□ 

□ ：DD □□□□□□□□□□，□□□□□□□□ 

□ □□□□□□□，□□□□□□□□□□□□□ 


SMS □ n □ □ □ P 2 P n □□□□□□□□• SMS 
□□□□□□□□□□□□□□、□□□□、□□□ 
□ (□□□、□□□□□□)□□□□□□□□，□□ 

□ SMS □□□□□□□□□□□□□□□□□□ 
□，□□□□□□□□□□□□ SMS,Q □ n □ □ 

□ □□□□，□□□□□□□□□□□□□□□□ 
□ □□• 

CmD □ C6] n □ □ □ □ □ URL Flux □ n □ □ 

□ □□、□□□□□□□□□□□□□□□□□□ 
□，□ □ Android □□□□□□□□□□ Andbot ， 
Andbot □□□□□□、□□□□□□□□□□□□• 
Smgh □ □ 譜 □ □□□□□□□□□□□□□ 

□□□□□□□□•□□□□□□□□□□□□a 
□ □□□□□、□□□□□□□□□□□□;□□□ 
□ □□□□，□□□□□□□□□□□□□□□□ 
□ □□□□□□，□□□□□□□□□□• 

□ □ .Tmynor □ □ C6U] □ □□□□□□□□□ 

□ □□□□□□□□□□•□□□□，□□□□□□ 
□ □□□□□□□□□□□□□□□□□□□□□ 
□ □ • 

5.3 □ □ 

□ □□□□□□□□□□ PC □ □ □ □ - □ □ 
□□□□□、□□□□□□□□□□□□□□□□， 

□ □，，『□□□□，，□□，□□□□□□□□□□□ 

□ □□□，□□□□□□□□□□□□□□□□□ 

□ □ □ (□ bullet-proof) ；□ “□□□，，□□□□，□ 

□ □□□□□□□□ Pay-Pe^Install 

□ □□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□，□□□□□□□□• 


2)D □ C&CQ □□□□□□□□□□□(□□□ 

□ □□□、□□□□ GRPS/3G □□)，□□□□□ 

□ □ □ ； 3)D □□□□□□□□ IP □□□□□□ 
□，□□□□□ IP □□-□□□ □ P2P 

□ □□□□□□□□□□□□□□□□□□，□□ 
□ □□□□□□□□□□□□□□□□□□□、□ 
□ □□□□□□□□□□□□□□□□□□• 

Mullmer □□_□□□□□ SMS-HTTP □ □ 

□ □□□□□□□□•□□□□□□□□□□DO 

□ □ 2n □ □ !□□□□□□□□□□□□□ 

□ □□□□;□ 2 □ □ □ SMS n □ □ □ □ URL □ 

□ □□□□□• Zeng □ □ C58] □□□□□□□□□ 


D D 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 


D D 
□ □ 
□ □ 
□ □ 
□ 、 


D 


D 


D 

D 


D 


□ 

□ 

□ 

□ 

□ 

□ 

□ 

□ 

6 


D 

D 

D 
D . 

□ □ 
□ □ 
□ □ 
□ □ 
D D 
D D 
D D 
D D 
D D 
□ □ 
D 
D 


D 


D 
□IP 
□ 、 


D 

D 


D 

D 


D 

D 


D 

D 


D 

D 


D 

D 


D 

D 


D 


D 

D 

D 

D 

D 

D 

D 

D 

D 

D 

D 

D 

□ - 
D D 
D D 


D D 
D D 


D 

D 


D 


□ ， 
□ □ 
□ □ 
□ □ 
D)n 

□ng 
ki 
c 

□ija 
□hi 


D 

D 


D 

D 


D 

D 


D 

D 


D 


D 

D 

D D 
D D 
□ □ 


D D 
D D 
□ □ 


D 

□ □ 


D 

D 

D 

D 

D 

D 

D 

D 

□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
□ □ 
D D 
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D 

D 

D 

D 

D 

D 

\ly nu 
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□ □口 


/IV 
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6.1 □□□□□□ 

□ □□□□□□□□□□□□□□，□□□□ 

□ □□□□□□□□□□□□□□□(□□□□□ 

口 、 □□□□□□□□□□ )，□□□□□□□□□ 

□ IRC □ □ □ 

口 □□，□□□□□□□□□□、□□□□、□□□ 

□ □□□□□□□□，□□□□□□□• HTTP □ 
P2PQ □□□，□□□□□□□□□□□□□，□□ 

□ □□□□□□□□□，□□ C&C □□□□□□ 

□ □ □ ：DD □□□□□□□□□□□□□□ 

口 ， □□□□□□□□□□□□□□□ ； 2)D □ □ □ 

□ □□□□□□□□□□□□□，□□□□□□□ 

□ □□，□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□； 3) □□□□□ 

Sinkhole □□□□□□□□，□□□□□□□□□ 

□ □□□□□□• 

丁 orPig □ Kraken □□□□□□ Domain Flux 

Stone^ross^D Ammi™ □ □□□□□□□，□□ 

□ □ Sinkhole □□□□□□□ Torpig □ Kraken 

□ □ □ Downloader，0 □□□□□□□□□□□□ 

□ □□□□，□□□□□□□□□□□□□□□□ 

□ □ □ □ • 

6.2 □□□□□□□□ 

□ □□□□□□□□□□，□□□□□□□□• 

□ □□□□□□□□c&cn □□□□□□□□□ 

口 ， □□□□□□□□□□□□ Shellcode □ □ □ □ 

□ □□□□□□□□□□□□□，□□□□□□□ 

□ □□□□□□□□□□□□，□□□□□□□□ 

Cho □ □ .t ⑽: □口 Infiltrator □口 MegaD □口 

□ □，□□□□□ Fuzzing □ □ □ □ MegaD C&C 

□ □□□□□□□，□□□□□□□□□□□□□ 

□ □□□□□□• Conficker.BQ Q □ MD6 □ □ □ 

□ □□□□□□□，□□□□□□□□□□□，□□ 

□ □ □ • 2004 □□□□□□□□□ (sasser) □ FTP □ 

□ □□□□□□□□□□□□□□□□□□□□• 

6.3 □□□□□□ 

□ □□□□□□□□□□□□□□□□□□□， 


□ □□□□□□□□□□-□□ Sinkhole □ □ □ □ 

□ □□□□□□□□□□□□□，Sinkhole □ □ □ 

口 ， □□□□□□□□□□□□□□□，□□□□□ 

□ □□□□□□□□□□□□□□ ； 2)Q □ □ □ 

DHT □ P2P □□□□，□□ □ Sybil □□□□□□ 

□ □□□□□，□□□□□□□□□□□□□□□ 
□ □□□□□，□□，□□□□□□□□□□□□ 
□，□□□□□□ ； 3)Q □ □ □ pee^list □ □ □ P2P 

□ □□□，□ PeerQ □□□□□□□□□□□□□ 

□ □□□，□□□□□□ Peer □ □ □ □ □ Peer □ 

□，□□□□□□• 

□ □□□□□□□□□□ Sinkhole □ □ 
Conficker □□，□□□□□□□□□□□，□□□ 

□ □ Conficker □□□□□□□□□□□□• Davis 

□ □ L6：，J D □ Sybil □ □ □ Storm □□□□□□□□ 

□ □ □ □ • Waledac □□□□□□□□ P2P □ Q □, 
Peer □ □ □ □ peer-list □□□□□□，□□□□□ 

□ □□□□□□□□ Repeater □ □ □ pee 广 list □ 

□ □□，□□□□□□□□□□□• 

6.4 □□□□□□□□□□ 

□ □□□□□□□□□，□□□□□□□□□ 

□ □□□□□□□□□ (DoS) ： 1)D □□□□□□ 

□ □□□□□□□□□□□□ DDoS □□，□□□ 

□ □ □ [63l ;2)D □ □ □ Bootstrap Q □ P2P □ □ □ 

口 ， □□□□□□□□□□□□□□□□□ IPD □ 

□ □ DoS □□，□□□□□□□□□□□□□□□ 

□ P2P □ □ ;3)Q □ Fast-flux Q □□□，□□□ 
Mothership □□，□□□□□□□□□□□□□□， 

□ □□□□□□□ Fast-flux □□□□□□□□• 

6.5 □ □ 

C&-CQ □□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□•□□□□□□□DO 

□ □.□□□□□□□□□□.□□□□□□□an 

□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□•□□□□□□□□□□□DO 

□ □□□□□□□□□，□□ 2 □ □. □ □ □ □ ：d 

Sinkhole □□□□□□□□ DoS □□□□□□ □ 

□ URL Flux □□，□□□□□□□□□□，□□ 
URL Flux □□□□□□□□□□□□□ Web 2. 0 

□ □ .2)peer-list □□□□□□□ DHT □ P2P □ 

□ □□□□□，□□□□□□□、□□□□ peerlist 

□ P2P n □ □ □ □ □ • 


D D D 
D D D 
□ □ □ 
□ □ □ 
□ □ □ 
□ □ □ 
□)nJ 

□;4口 
□ □ □ 

□ □口 

□ □口 

□ □ □ 
□ □ □ 
g) □口 
n D D 
oni □口 

• ^ D D 

o 

p D D 

D D D 
D D D 

3 □口 
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Table 2 The Comparison of C&C Protocols 

n 2 □□□□□□□□□□□□ 


Topology 

Countermeasures - 

IRC HTTP URL Flux Fast-flux Domain Flux DHT Random 



Vulnerability Overflow \/ 

Index Poisoning X X X M. X ^ X 


Sinkhole \/ X X X 

Sybil X K X X ^ 7 

peer list Pollution X X M- XXV X 

C&C Servers DoS \J \/ X ■sj X X 

Bootstrap Attack X .X: X X X V X 

Note ： “n/” represents the countermeasure is effective ； “X” means noneffective. 


7 □□□□□□□ 

□ □□□□□□□□□□□□□，□□□□□ 
□ □□□□□□□□□□□，□□□□□□□□□ 
□ □□，□□□□□□□□□□□□□□□□□□ 

□ □□□•□□□□□□□□□□□□□□，□□□ 
□ □□□□□□□□□□□□□□□□□，□□□ 
□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□□、□ P2P □□、□□□□□□□□□•□□ 

□ □□□□□□□□□□□□□□□、□□、□□、 

□ □□□□ 5DDD，□□□□□□□□□□□□ 

□ •□□□□□-□□□□□□□□□□□□□□□ 
□，□□□□□□□□□□□□□□□□□，□□□ 
□□□□□□□□□□□□□□，□□□□□□□ 
□ □□□□□•□□，□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□• 

□ □□□□□，□□□□□□□□ = 1)0 □ □ □ 
□□□□□□□□□□□□□□□□，□□□□□□ 
□□□□□□□□□□，□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ 

□ □ □ □ ； 2)Q □□□□□□□□□□□□，□□□ 

□ □□□□□□□□□□□□□，□□ Infiltrator Q 

□ □□□□□□□□□ ;3)d □ Domain Flux, Fast- 
flux □ □□□□□□□□ DHT □ □ □ □ P2P □ □ 

□ □□□□□□□□□□□，□□□□□□□□□ 

□ □ ；4 )D □□□□□□□□□□□□□□□□□， 

□ □□□□□□□□□□□□□□□□□□□• 

□ □□□□□□□□□□，□□□□□□□□ 


□ □□□□□□□•□□□□□□□□□□□DO 

□ □□□□□□□□□□□□□□□□□ ：DD □ 

□ □□□□□□•□□□□□□□□□□□□□□ 
□ □□□□□□，□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □□-□□□□□□□□□□□□□□□□□a 

□ •3)DDDD.DDDD Honeypot, Infiltrator Q 
Sybil 

□□□□□□□□□□□□□□□□□□□，□□ 

pc □□□□□□□□• 5)D □□□□□□□□□□ 

□ □□□□□□，□□□□□□□□□□□□(□□ 
□ □□、□□□□□□□□□)•□□□□，□□□□ 
□□□□□□□□□□□□□□□□□□□□□□ 
□□□-□□□□□□□□□□□□□□□□□A 
□ □□□□、□□□□□□□□□□□□□□□□ 
□ □□□□□，□□□□□□□□□□□□□□□ 

□ □ □ □ 
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ABSTRACT 

Traffic classification through DPI technology is considered 
spending most CPU time in pattern matching, leading to 
the conclusion that it is not suitable for classifying traffic on¬ 
line on high speed networks. In this paper we focus on how 
to improve matching performance. We believe that perfor¬ 
mance can be improved by exploiting some characteristics of 
network traffic: magic first symbol and zipf-like distribution 
of application traffic. To the best of our knowledge, we are 
the first to observe and utilize them in traffic classification. 

In this paper, we analysis the expected matching times 
per flow before it is classified. Then, we introduce an en¬ 
hanced traffic classification engine with the help of above 
characteristics and some optimizations, which has the same 
matching accuracy with the original L7-filter engine. We 
evaluate the enhanced engine, the result shows that it can 
improve matching performance with one order of magnitude, 
at the cost of a negligible increase in memory consumption. 
Furthermore, it does not depend on network environments 
and not require any training phase. 

Categories and Subject Descriptors 

H. 4 [Information Systems Applications]: Miscellaneous; 
C.2.3 [Computer Communication Networks]: [Network 
Monitoring] 

Keywords 

traffic classification, DPI, magic first symbol, matching times 

I. INTRODUCTION 

Traffic classification is at the core of many fundamental 
network operations and maintenance activities to detect in¬ 
trusion and malicious attacks, forbid applications, bill on the 
content of traffics and ensure quality of service. It becomes 
one of the most interesting topics in network science and 
technology, especially in recent years. Because traditional 
port-based methods are no longer effective, along with the 
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explosive rise of Internet bandwidth and the rapid introduc¬ 
tion of new network applications. Some recent studies show 
that port-based methods can only classify 30% 〜 70% of to¬ 
day^ Internet traffic [1]. 

One alternative method to classify traffic is payload-based. 
It not only analyses port numbers in the packet header, but 
also inspects the content of packet payloads deeply to classify 
the flow into a application-level protocol. This technique is 
also called Deep Packet Inspection (DPI). Most of the indus¬ 
try products (e.g. Qosmos QWork, Blue Coat PacketShaper, 
and Riverbed Steelhead) and free tools available nowadays, 
such as L7-filter [2] (all patterns are represented by regular 
expressions), Ethereal [3] and OpenDPI [4] (an open source 
version of the commercial DPI engine of ipoque, released in 
September 2009), are based on DPI technology in order to 
provide accurate classifying results. 

This technology pre-defines a pattern for each protocol 
(represented as regular expressions), and check whether a 
pattern match the payload of each incoming and outgoing 
packet or not. In this context, it becomes a problem of 
’’pattern matching” in high-speed links. Regular expressions 
can be matched simultaneously by finite automata. Unfortu¬ 
nately, standard Non-deterministic Finite Automata (NFAs) 
and Deterministic Finite Automata (DFAs) induce a space- 
time tradeoff when combined and are unsuitable for use on 
traffic classification. NFAs are small and compact but too 
slow, whereas DFAs are fast but consume too much memory. 

System throughout is considered the most serious problem 
of DPI traffic classifier. Some experimental results show that 
the throughout of original L7-filter engine drops to tens of 
Mbps when all protocols are enabled. Moreover, over 90% 
of the CPU time is spent in pattern matching [5]. Thus 
traffic classification through DPI technology is not suitable 
to use online on high speed networks. One good idea of 
boosting up performance is to construct a composite DFA for 
all patterns. Unfortunately, the number of DFA states may 
experience exponential growth in size, resulting in too much 
memory consumption. For example, we fail to compile the 
L7-filter pattern set into a composite DFA in a machine with 
16 GB memory, which makes this idea unrealistic. Thus, in 
this paper we focus on accelerating pattern matching speed, 
so as to increase system throughout. 

We observe a new interesting characteristic of network 
traffic: the first symbol of flow content can help determine 
the scope of the application layer protocol for the flow, and 
the scope is less than ten, in some case it is only one. We 
think that this observation can help increase matching speed 
if we match a unclassified flow with the scope but not all pro¬ 
tocols. Moreover, we argue that our work is meaningful to 
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traffic classification based on machine learning etc, because 
the first symbol is also a useful feature for them. In this 
paper, we propose an enhanced system for traffic classifica¬ 
tion with DPI technology, with an acceptably small increase 
in memory, that brings matching performance speedup with 
one order of magnitude. Furthermore, our system has the 
same accuracy as the existing methods, and it does not re¬ 
quire any preprocessing phase. 

The rest of the paper is organized as follows. In Section 2 
we review the related work of traffic classification. In Section 
3, we introduce magic first symbol and give an explanation. 
We build a model and attribute matching times to four pa¬ 
rameters in Section 4. Then we design an enhanced L7-filter 
engine and introduce some optimizations to improve match¬ 
ing performance. Section 5 presents experimental results. 
We conclude the paper and mention the areas of future work 
in Section 6. 

2. RELATED WORK 

Traffic classification is a useful technique for Internet Ser¬ 
vice Providers (ISPs), companies and governments. In addi¬ 
tion to the mentioned port-based and payload-based meth¬ 
ods above, more recent traffic classifiers rely on statisti¬ 
cal analysis and classification mechanisms of attributes [6, 

7], such as byte frequencies, packet sizes and packet inter¬ 
arrival times. However, these methods are not yet suitable 
to fine-grained traffic classification at present. For exam¬ 
ple, although they have been shown to work well to deter¬ 
mine application classes (e.g., Web vs. P2P), they are most 
likely unable to distinguish application instances of the same 
classes (e.p., Bit Torrent vs. Gnutella) [8]. Therefore, there 
are no available products based on these methods. Recently, 
some researchers utilize link homophily in the application 
layer [9] or flow similarity [10] to classify traffic. 

In this paper, we only focus on solving the problems of 
traffic classification based on DPI technology. As a network 
security application, traffic classification is somewhat dif¬ 
ferent from other applications such as Intrusion Detection 
Systems (IDS). For example, the former has fewer patterns 
than the latter (tens or at most hundreds against several 
thousands), the former tolerate a limited number of misclas- 
sifications. Every complete flow almost can match success¬ 
fully at least one pattern in traffic classification, while the 
latter has a very small probability of matching. Last but not 
least, the first symbol carries more useful information for the 
former. We will give an explanation in next section. 

L7-filter is a famous open source application layer traffic 
classifier for Linux. This classifier re-assembles the payload 
content of a connection and identifies its application through 
regular expressions matching (The latest version has 112 pat¬ 
terns for traffic classification). At any time, a connection 
has only one of the following four states: UNTOUCHED, 
NO_MATCHED_YET, NO_MATCH, and MATCHED. A new 
arrival connection is marked as UNTOUCHED. Each con¬ 
nection is matched with Non-deterministic Finite Automata 
(NFA) of each pattern sequentially. It is marked as MATCHED 
as soon as one pattern is matched, otherwise it is marked as 
NO-MATCHED—YET. The following packets of MATCHED 
connection will not be re-assembled. The classifier will give 
up matching a N0_MATCHED_YET flow after the first 10 
packets or 12000 bytes of the flow, and mark it as NO_MATCH. 
The data flow of original L7-filter matching engine is shown 
in Fig 1. In this paper, we use the signatures of L7-filter 



Figure 1: Data flow of the original LT-filter engine 

as our protocol pattern set except those which cause over¬ 
matching (17simple for short in this paper, 102 regular ex¬ 
pressions) . 

Fang Yu et al. [5] propose a heuristic grouping algorithm, 
which can divide multiple regular expressions of application 
protocols into different groups. They also introduce a sys¬ 
tem model, which binds the DFA of each group to one core 
in CMP architecture to increase parallelism. However, each 
core needs to classify all the traffic flows in this model. Be¬ 
cause each core only possesses a group, one core cannot clas¬ 
sify a flow doesn’t mean that another core cannot classify it 
too. 

Danhua Guo et al. [11] propose a highly scalable paral¬ 
lelized L 7-filter system architecture with affinity-based schedul¬ 
ing in a multi-core server. However, it uses L7-filter instances 
in CMP architecture directly to identify applications, which 
search patterns in the content of packet payloads with NFA. 

So the throughout is relatively low. 

3. MAGIC FIRST SYMBOL 

An inspection of the protocol patterns contained in mod¬ 
ern traffic classification tools shows that most of them have 
the meta-character ,A, , which means that they need to be 
matched at the start of the application data. Seventy per¬ 
cent of L7-filter regular expressions are of this type. And 
they require a limited number of bytes to identify a proto¬ 
col, the threshold is 12000 bytes in L7-filter. This makes 
sense because application signatures usually describe the 
handshaking phase of application protocols or some kind of 
data used for synchronization, which are usually placed at 
the beginning of the application payload; the rest is usually 
application-related data that is useless for classification. For 
example, the FTP protocol works as follows: the FTP server 
may talk to a FTP client with ”220” at the first data packet, 
which says it is ready. Almost all servers say something af¬ 
ter ”220”，and usually includes the string ” ftp”. Most of the 
protocols have the fixed formate at the beginning section, 
and thus each of them has a limited number of different first 
symbols. 

We count the number of different first symbols based on 
two real-world traffic traces. One is captured from the en¬ 
trance of a backbone network taken on 42 minutes in De¬ 
cember 2006, the other from another network taken on 15 
minutes in August 2010. Both traces contain relative abun- 
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dance of application protocols. We classify each flow with 
the help of original L7-filter engine enabling 17simple pat¬ 
terns. The result is showed in Fig 2. From the figure we can 
find that ninety percent of protocols have less than 5 differ¬ 
ent first symbols. The maximal value is 49, and the corre¬ 
sponding protocol is NBNS, whose pattern is ”\x01\xl0\x01 
I\)\xl0\x01\x01|0\xl0\x01”. Obviously this pattern has 
256 different first symbols in theory. 
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Figure 2: The number of different first symbols for 
each application protocol. 

Based on the above information, we think that one symbol 
may be the first symbol of only a limited number of proto¬ 
cols. We show the results in Fig 3. The red line is the result 
of 17simple patterns, 36 protocols among 17simple patterns 
have 256 different first symbols, so each symbol has more 
than 36 protocols. In trace 1 and trace2, each first symbol 
corresponds to less than 10 protocols, most less than 3. This 
means that the first symbol carries some useful information 
for traffic classification, it can greatly reduce the scope of 
possible protocols for the flow. So we think the first symbol 
is magic. Trace 1 and trace2 have similar results, this means 
that the observation works well for different network links. 




Figure 3: The number of different protocols for each 
first symbol. 


4. OPTIMIZATIONS OF PAYLOAD-BASED 
TRAFFIC CLASSIFICATION 

In this section, we introduce some optimizations to solve 
the problems of payload-based traffic classification, mainly 
matching performance. We choose the user-space version of 
original L7-filter engine as our baseline classifier. 



Figure 4: Data flow of the enhanced LT-filter engine 


4.1 Matching Times Analysis 

When a connection matching with a protocol, the match¬ 
ing times is increased by one. For a complete TCP flow 
(we use flow and connection interchangeably ), the classi¬ 
fier either marks its as a MATCHED flow whose application 
protocol is contained in the pattern set, or as a NO-MATCH 
flow at last. Obviously, a NO-MATCH flow need to try to 
match the pattern set sequentially with several loops before 
marking it as NO-MATCH. 


Table 1: Parameter space used in our analysis. 


Parameter 

Description 

Ti 

the matching times needed to 
know matching neither protocol in a Loop 

T n 

give up matching after the Number of packets 

T r 

the Ratio of NO MATCH flows 

T a 

The Average matching times 
needed to mark a MATCHED flow 

MT 

the expected number of total 

Matching Times to mark a flow 


Table 1 lists the parameters used in the analysis of ex¬ 
pected total matching times for a new arrival TCP flow. TJ 
equals the size of pattern set (sequentially matching), and 
T n equals 10 for L7-filter engine. T a < T n x Ti, 0 < T r < 1. 
We can conclude that: 

MT = T r x x T n + (1 - T r ) x T a 

— T r x {T n x Ti — To) + T a (1) 

Obviously the value of MT depends positively on Ti, T r , T n 
and T a . If we can decrease their value, we can accelerate the 
matching speed to some extent. However, T r is dependent 
on the specific network link, and a fixed value during a long 
period. In this paper, we only focus on reducing the value 
of Ti and T a , because some previous work solve the problem 
of how choosing a reasonable value of T n [12, 13]. 

4.2 Enhanced L7-filter Engine 

4.2.1 Decrease the value of Ti 
In our enhanced L7-filter engine, we introduce 256 index 
lists, and divide all patterns into them with repetition. In 
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order to make our engine not dependent on the specific net¬ 
work environment, the division rule is learned from patterns 
only: if a pattern can match a string starting with the sym¬ 
bol a, we assign it to the corresponding list, and push the 
pointer of its finite automaton to the back. From the red 
line in Fig 3 we can know that this step can decrease signifi¬ 
cantly the value of because a connection does not need to 
try all patterns to know the failure, but only try patterns in 
the corresponding list of its first symbol. Because the other 
patterns cannot match the connection forever owing to the 
division rule. Fig 4 shows the data flow of enhanced L7-filter 
engine. 

4.2.2 Decrease the value ofT a 

Comparing with Fig 1, our enhanced engine introduce a 
new module: list adjuster, which can change the pointers 
sequence in the same list to decrease the value of T a . 

Some work show that every protocol does not take the 
same proportion traffic, a limited number of protocols oc¬ 
cupy most of network traffics [14]. Table 2 shows the application- 
level protocol distribution of connections in tracel. The first 
column is the rank of each protocol, the third is the propor¬ 
tion traffic for each protocol, and the last is the total propor¬ 
tion of network traffic for the protocols from rank 1 to rank 
k. From Table 2, we can find that a small number of pro¬ 
tocols accounts for a high percentage of network traffic, and 
the distribution is zipf-like. This is in line with our common 
sense, just as a small number of websites are accessed more 
frequently. 


Table 2: Protocol distribution of tracel 


Rank 

Protocol 

name 

Protocol 
proportion % 

Total 

proportion % 

1 

HTTP 

59.01 

59.01 

2 

Bit Torrent 

27.68 

86.69 

3 

SMTP 

4.60 

91.29 

4 

SSL 

3.23 

94.53 

5 

MSN 

1.35 

95.88 

6 

Kugoo 

1.34 

97.21 

7 

Gnutella 

0.74 

97.96 

8 

Others 

2.04 

100 


Obviously arranging protocol sequence in the same list 
by its proportion in the network will have the minimal T a . 
However, the proportion is not known in advance, thus we 
need the list adjuster module to adjust protocol sequence. 
Getting the minimal T a need to introduce some statistical 
overheads. Here we propose two better adjusting measures, 
which can avoid introducing the overheads. 1) move-front: 
when a protocol matches a connection, move the pointer of 
the protocol to the list front. 2) swap-father: think each list 
as a full binary tree, and swap the matching pointer with its 
father pointer in the list. Both of the measures work with 
the assumption that a matching protocol will be matched by 
the next connection of the same list. 

4.2.3 Regular Expressions Grouping 
Each list in Fig 4 contains multi-patterns. We can adopt 3 
different methods to implement multi-patterns matching: 1) 
each pattern is translated into a NFA, and perform match¬ 
ing operations sequentially, just as original L7-filter engine; 
2) compile each pattern into a DFA, and match all patterns 


sequentially; 3) construct a composite DFA for all patterns, 
and get matching results by matching the content with the 
composite DFA just one time. Obviously the last method 
has higher matching performance than the others. Because 
it utilizes faster finite automaton, and TJ becomes 1. Unfor¬ 
tunately, it is unrealistic in available computers as we men¬ 
tioned earlier. 

In this context, one alternative method is to divide the 
patterns into several groups, and construct a DFA for each 
group. This method aims at decrease the value of Ti by 
grouping patterns at the cost of an acceptably small increase 
in memory. The requirement of regular expressions grouping 
in our system is somewhat different: each list contains only 
a small subset of all patterns. In this paper, we use the 
following steps to group regular expressions. We divide all 
patterns into two sets, and have different grouping objective 
for each set. One set A contains these patterns that appear 
in every list (namely the patterns with 256 different first 
symbols), the other set B contains the remaining patterns. 
We try while try to reduce the number of groups for set B. 

Grouping set A: we first randomly divide the patterns into 
M (a pre-defined value) groups. Then we loop over on all 
patterns and check whether there is a pattern i if moving 
it to another group can reduce the number of DFA states. 
If the answer is true, the pattern is moved. This loop is 
repeated until there is no change during an entire loop. 

Grouping set B: construct a group, add patterns with 
different first symbols as much as possible until the number 
of DFA states exceed 6 (a pre-defined value). If there are 
undistributed patterns, construct a new group and follow 
the same step again. 

We omit problem statement and pseudo-code of regular 
expressions grouping here due to space limitation. 

5. EXPERIMENTAL EVALUATION 
5.1 Experiment Setup 

Our work aims at boosting up matching performance of 
traffic classification system while maintaining its matching 
accuracy. In this section we evaluate the effectiveness of our 
optimizations by comparing the baseline classifier with 5 dif¬ 
ferent classifiers: 1) enhanced L7-filter engine 1 —— 256 index 
lists, NFAs matching sequentially with regexec function; 2) 
enhanced L7-filter engine 2 — no index list, individual DFAs 
matching sequentially; 3) enhanced L7-filter engine 3 — 256 
index lists, individual DFAs matching sequentially; 4) en¬ 
hanced L7-filter engine 4 —— no index list, grouping DFAs 
matching sequentially; 5) enhanced L7-filter engine 5 —— 256 
index lists, grouping DFAs matching sequentially. In order 
to make experiments in user-space, we use libnids library to 
accomplish the task of flow reassembling. All the param¬ 
eters are kept up with original L7-filter engine. The com¬ 
parison among the classifiers is expressed by the speedup of 
matching times and matching speeds. Matching speeds are 
measured by using the RDTSC assembly instruction avail¬ 
able on Pentium-compatible processors and include only the 
time spent in the matching operations, excluding all the 
other portions of the code that were outside the classifier 
(e.g. loading packets from disk, and flow reassembling). 

As mentioned earlier, our optimizations are irrelevant to 
network links, and we get first symbols only form the pre¬ 
defined patters in our experiment. So we still use tracel 
and trace2 as our experimental traces. Table 3 shows the 
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Figure 5: Matching times of traffic classifiers and its 
speedup on tracel and trace2. 


Figure 6: CPU cycles of matching operations in traf¬ 
fic classifiers and its speed on tracel and trace2. 

5.3.1 Limiting First Symbols of Patterns 

One pattern may match a string starting with many sym¬ 
bols, while the connections of that protocol may limit their 
first symbols into a subset. For example, a HTTP connec¬ 
tion begins with a request from client to server. The request 
methods usually are GET, HEAD and POST, seldom are 
PUT, DELETE etc. So we can know that the first sym¬ 
bol of a HTTP connection is G, H, P or D. The pattern 
of HTTP protocol in L7-filter pattern set have 256 different 
first symbols. So combining the syntax of protocol with its 
pattern will decrease the value of Ti further. Furthermore, 
it will improve classification accuracy. The connections of 
HTTP protocol have 13 different first symbols in tracel and 
30 symbols in trace2, as shown in Fig 2, which contains 
symbol \x04 and \x05. Obviously these connections does 
not conform with syntax specification of HTTP protocol. 

5.3.2 DFA with state lookup 

When a new packet of a NO—MATCH 一 YET connection 
arrives, original L7-filter engine appends its payload to data 
buffer, and matches the buffer from the start state of finite 
automaton, which cause the payloads of previous packets to 
be matched again. As we know, there is only one state active 
at any time during DFA matching. So if we record the state 
r, the engine will only match payload of the new packet from 
r. The idea can increase system throughout further. 

5.3.3 Combing with previous work 


The experimental platform was an Intel Core i7 CPU 860 
at 2.8 GHz, 8 GB RAM and RedHat AS5 64 bit; the code un¬ 
der examination was compiled with GCC v4.1.1 and always 
executed on the same CPU core. 

5.2 Experiment Results 

All the DFAs are constructed by our regular expressions 
compiler (without DFA minimization). The individual DFAs 
of 17simple pattern set have a total number of 8591 states. 
Our regular expressions grouping algorithm divide 17simple 
set into 12 groups, and all grouping DFAs have 23047 states 
totally. 

Fig 5 shows matching times of all traffic classifiers on 
our experimental traces and its speedup comparing with the 
baseline classifier. 0 in X-axis represents original LT-filter 
engine, 1 represents enhanced L7-filter engine 1, and so on. 
In Fig 5 enhanced L7-filter engine 2, 4 and 6 take use of 
move-front adjusting measure. From Fig 5 we can find that 
our optimizations can reduce matching times to fifteenth and 
twelfth on tracel and trace2 respectively. 

Fig 6 shows CPU cycles cost of matching operations in 
all classifiers and its speedup comparing with the baseline 
classifier. The cycles cost include that spend in adjusting 
sequence by move-front measure. The results show that our 
optimizations can increase matching performance by at least 
ten times. 

Swap-father adjusting measure has the similar results with 
move-front measure, we omit its results here due to space 
limitation. 

The memory cost of each classifier is shown in Table 4 
(including memory cost of finite automaton and 256 index 
lists). Comparing with original L7-filter engine, the memory 
consumption has only an increase of 22.6 MB, which is neg¬ 
ligible to current computer servers. Furthermore, our opti¬ 
mizations has the same classification accuracy with original 
L7-filter engine, and it does not require any preprocessing 
phase. 


Table 4: Memory cost of traffic classifiers (MB). 



Original 

Enhanced L7-filter engine 


L7-tilter 

1 

2 

3 

4 

5 

memory cost 

1.1 

1.4 

8.9 

9.3 

23.6 

23.7 


5.3 Further Improvements 

There are also some improvements that enhance our clas¬ 
sifier. We will implement them and verify their effectiveness 
in our future work. 


primary information of tracel and trace2. The Conns Wit h- 
HdSh is the number of complete TCP connections (with 3 
handshake and application data), while the TCPPkts is the 
number of TCP packets that belong to those connections, 
and TCPBytes is the total bytes of TCPPkts packets. 


Table 3: Primary information of experimental traces 



Trace 

name 

ConnsWithHdSh 

(million) 

TCPPkts 

(million) 

TCPBytes 

(GB) 

tracel 

7.1 

55.3 

40.3 

trace2 

5.3 

28.2 

19.3 
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Another advantage of our optimizations is that they are 
orthogonal to many previous work, such as decreasing T n [12, 
13] and multi-threaded classifier in multi-core system [11]. 
Combining with them can also increase system throughout 
further. 

6. CONCLUSIONS 

Although many available traffic classifiers are based on 
deep packet inspection technology, the low system through¬ 
out make them impossible to be used online on high speed 
networks (whose bandwidth is above Gbps). The bottle¬ 
neck lies in pattern matching, which matches packet payload 
with hundreds of predefined patterns. In this paper, we try 
to solve the problem by reducing the number of matching 
times. 

We choose original L7-filter engine as our baseline classi¬ 
fier, and abstract that its average matching times per flow 
is proportional to Ti and T a . The problem is transformed 
to how decrease T\ and T a . Our work is motivated by two 
observations. One is that the flows of the same protocol 
in real-world network traffics have a limited number of first 
symbols. It causes that the first symbol of flow content can 
determine the scope of the application layer protocol, and 
the scope is much less than the size of pattern set. This 
observation can be used to decrease the value of TJ. Fur¬ 
thermore, it is a useful feature for traffic classification based 
on machine learning. The other observation is zipf-like dis¬ 
tribution of application traffics, which can help decrease T a . 
We also proposes some other optimizations, such grouping 
patterns, to achieve our goal. 

We introduce an enhanced LT-filter engine with our opti¬ 
mizations, which has the same accuracy with baseline clas¬ 
sifier, and can work without any training phase. The exper¬ 
iment result shows that it can increase matching speed with 
one order of magnitude, at the cost of only 21 MB mem¬ 
ory. Moreover, it has a stable speedup , and works well on 
different network links. 

Our work is orthogonal to some previous accelerated mea¬ 
sures. Combing our work with them can help to further 
improve matching speed, so can limiting first symbols of pat¬ 
terns and DFA with state lookup. We will implement them 
and verify their effectiveness in our future work. 
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Abstract: As the basis of Internet development and exploitation on higher levels, the Internet topology modeling 
starts from the random model to the hierarchical model. Then it developed to a more realistic one, scale-free 
network model. Many characteristics of topology are analyzed with the corresponding metrics, including power law. 
Moreover, the related work on the current topology models, topology generation algorithms, and topology 
generators is fully presented. Finally, the new problems and challenges which arise from current research are 
discussed and some suggestions for future research work are put forward. 

Key words: Internet topology modeling; network modeling; topology generator; topology metric; Internet 

measurement and analysis; power law; scale-free network 


摘要 ： Internet 拓扑建模是在更高层次上开发、利用 Internet 的基础 .Internet 拓扑模型研究经历了从随机型 
到层次型，再到无尺度 (scale-free) 网络的过程.对包括赛率 (power law) 在内的多种 Internet 拓扑特征及其相应度 
量进行了分析，对现有的拓扑模型、拓扑生成算法以及拓扑生成器进行了全面的综述.最后论述了目前研究中遇 
到新的问题与挑战，并对今后技术路线进行了总结 . 

关键词 ： Internet 拓扑建模 ; 网络建模 ; 拓扑产生器 ; 拓扑度量 ; Internet 测量与分析 ; 幂率;无尺度网络 
中图法分 类号： TP393 文献标 识码 : A 

Internet 作为当今人类社会信息化的标志，其规模正以指数速度高速增长.如今 Internet 的“面貌”已与其原 
型 ARPANET 大相径庭，依其高度的复杂性，可以将其看作一个由计算机构成的“生态系统”.虽然 Internet 是人类 
亲手建造的，但却没有人能说出这个庞然大物看上去到底是个什么样子，运作得如何 .Internet 拓扑建模研究就 
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是探求在这个看似混乱的网络之中蕴含着哪些还不为我们所知的规律 . 发现 Internet 拓扑的内在机制是认识 
Internet 的必然过程，是在更高层次上开发利用 Internet 的基础 . 然而 , Internet 与生俱来的异构性、动态性、发展 
的非集中性以及如今庞大的规模都给拓扑建模带来巨大挑战 [1] .Intemet 拓扑建模至今仍然是一个开放性问题 , 
在计算机网络研究中占有重要地位 . 

Internet 拓扑作为 Internet 这个自组织系统的 “ 骨豁 ” ，与流量、协议共同构成模拟 Internet 的 3 个组成部分 , 
即在拓扑网络中节点间执行协议，形成流量 .Internet 拓扑模型是建立 Internet 系统模型的基础，由此而体现的拓 
扑建模意义也可以说就是 Internet 建模的意义，即作为一种工具 , 人们用其来对 Internet 进行分析、预报、决策 
或控制 .Internet 模型中的拓扑部分刻画的是 Internet 在宏观上的特征，反映一种总体趋势，所以其应用也都是在 
大尺度上展开的 . 对 Internet 拓扑模型的需求主要来自以下几个方面 :(1 )许多新应用或实验不适合直接应用于 
Internet, 其中一些具有危害性，如蠕虫病毒在大规模网络上的传播模拟 [2] ;(2) 对于-些依赖于网络拓扑的协议 
( 如多播协议 [3] ), 在其研发阶段，当前 Internet 拓扑只能提供一份测试样本，无法对协议进行全面评估，需要提供多 
个模拟拓扑环境来进行 实验 ; (3) 从国家安全角度考虑，需要在线控制网络行为，如美国国防高级研究计划局 
(DARPA ) 的 NMS(network modeling and simulation) 项目 [4] . 

Internet 拓扑建模是一项复杂的工作，涉及网络测量、图论、算法设计、统计学、数据挖掘、可视化以及 
数学建模等多个研究领域 .Internet 拓扑建模研究内容可归结为 3 个问题 :(1 )如何获得一份完整而准确的 
Internet 拓扑数据 ; (2) 如何对 Internet 网络拓扑特征进行描述 ; ⑶如何构造一幅类似于 Internet 的拓扑图 . 这 3 
个问题分别对应于 3 个研究方向，即拓扑结构测量、拓扑特征发现、拓扑生成器开发.其中拓扑结构测量是拓 
扑建模的 基础 ; 拓扑特征发现是拓扑建模的 核心 ; 拓扑生成器就是拓扑模型的软件实现.拓扑结构测量属于网络 
测量范畴，详细内容参见文献 [5]. 本文将论述后两个方向 . 

1拓扑建模研究历程 

Internet 拓扑研究经历了从经验假设到客观分析，从单纯的计算机网络研究到复杂系统特征化研究的过程 . 
在研究早期 , 由于缺乏真实测量数据支持，拓扑模型都是研究人员基于经验假设建立的 . 最早的 Internet 拓扑模 
型是 1988 年 Waxman 提出的 Waxman 模型 [6] . 这是一种随机模型，沿用了很多年 . 直到 1996 年 , Doar 提出了 
Tiers ( 等级 ) 模型 [7] .该模型刻画了 Internet 所具有的层次特征 .1997 年 , Zegura 等人 [8] 提出了另一种层次模型一 - 
Transit-Stub 模型 . 此时，从 1995 年开始的大规模 Internet 拓扑测量工作已经逐步展开，采集到了大量拓扑数据 . 
这些数据对科研机构都是免费开放的，极大地推动了拓扑研究的发展 .Internet 拓扑研究也进入了一个成果不断 
累加的阶段，发现多于改进,新旧成果共同描绘了 Internet 拓扑图景 . 在所有研究成果中，最重要的是 ,1999 年 
Faloutsos 等人发现 Internet 拓扑结构中存在幕律 (power-law) [9] . 幕律的发现将 Internet 拓扑与一些生物学、社会 
学中的复杂网络联系起来，使其成为 “ 无尺度 (scale-free)” 网络的一个实例，在 Internet 拓扑研究与系统学研究之 
间架起了一座桥梁 [1(1] .2000 年以来，研究人员开发了许多遵循幂律的拓扑生成算法 [11 ~ 16] 以及拓扑生成器 [17 ~ 19] ， 
为 Internet 模拟提供了有利的支持 . 不过，现有成果距离前面提到的 3 个问题的答案还有一定距离，而且新的发 
现 [2e ， 21] 也对现有成果提出了挑战 . 

目前，对拓扑模型、生成算法和拓扑生成器的含义的界定比较模糊，研究过程中也常将前两者的软件实现 
与专门的拓扑生成器拿到一起来比较，或者将生成算法也称为拓扑模型 . 造成这一情况的原因是,一些生成算法 
涉及到了 Internet 的内在机制，如 ESF [14] ; 而一些拓扑生成器又包含了一些 Internet 细节特征，如 nem [19] . 实际上， 
这三者是有本质区别的 : 拓扑 模型是用数学语言对 Internet 宏观拓扑特征进行刻画,并不一定要提出如何构造这 
一 特征 ; 生成算法是描述如何产生一幅具有某个模型特征的拓扑图，不需要软 件化; 拓扑生成器则需要根据生成 
算法来产生一幅类似实际 Internet 的拓扑图，需要从应用角度加以考虑 . 

Internet 拓扑通常进行形式化为无向图 G,G=(7,£1 其中 F={v|v 是 G 中的一个节点 },£={(«,v)|«,ve F 且 tt,v 
相邻接数学表示为邻接矩阵 M 设么，表示节点 v 的出度 ,4=|{u|0,v)e£7| . 设表示节点出度频率， /rf=|{v|veF 
且 d=d}\. 

下面我们就拓扑模型、生成算法和拓扑生成器逐一展开讨论，探讨其研究进展与关键技术 . 
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2 拓扑模型 

Internet 拓扑模型可分为两类 : 一类是描述 Internet 拓扑特征，包括 Waxman 模型 , Tiers,Transit-Stub 和幂律 ; 
另一类是描述拓扑特征形成的机理，包括 Barabdsi 与 Albert 提出的 BA 和 ESF 以及一种改进模型 GLP . 由于后 
一类模型对 Internet 幂律形成机理的描述还不成熟 , 更多的是作为一种产生幂律的图生成算法，所以将在第 3 节 
进行论述 . 

对于第 1 类模型来说 , Internet 拓扑特征的发现，实际上就是刻画该特征的度量 (metric) 的发现.一个属于第 
一类的拓扑模型就是包含若干已存在的或新发现的度量，然后根据实际的 Internet 拓扑数据求出这些度量的值 . 
因此 , 对这类模型进行评价需要从两方面 入手 : - 方面，对它所采用的拓扑数据进行 评价; 另 ' 方面，对其度量进 
行评价 . 在所有己经发现的 Internet 拓扑度量中，最为基本的就是节点出度频率 / rf .其分布是判断一幅拓扑图是否 
与 Internet 拓扑相类似的最重要的依据 . 在研究早期，研究人员或者认为 Internet 节点出度是完全随机的(如 
Waxman 模型 [6] ) ，或者认为节点出度是正规的 ( 如 Tiers 模型 [7] ).而幂律的发现证明了 Internet 拓扑结构介于两者 
之间，呈幂率分布 [9] . 根据对出度频率分布的刻画，可将 Internet 拓扑模型分为以下 3 类： 

(1) 随机型，即认为 Internet 拓扑图处于一个完全无序的状态 , 在大尺度上是均一的 .Waxman 模型 [6] 是一种 
类似于 Erdos-Renyi 模型的随机模型 , 出度频率呈泊松分布 . 这个模型有两个 版本 : RG1 , 先将节点随机布置在直 
角坐标网格中，节点间的距离就是其欧几里德 距离 ; RG2, 依据 (0,L) 均匀随机分布为节点对指定距离.两个版本 
中，节点间相接的概率 P(«,v) 与其距离相关，服从泊松分布，距离越近，概率越大 . 

P(u, v) = p exp ~ d ^ u ^ (1) 

La 

其中 ,4«,V) 表示节点 《 与 V 之间的距离 , i 为节点间最长距离 , Ct 与取值范围是 (0,1). 

(2) 层次型，来自对 Internet 结构所具有的层次特征的认识 , 在同一层上的节点出度接近，不同层间节点出度 
差别很大 . 对同一层上的节点布置借用 Waxman 模型方法 .Tiers ( 等级 ) 模型 [ 7 ] 将 Internet 划分为 LAN (局域 
网 ), MAN( 城域网 ) 和 WANC 广域网 )3 个层次 . 在该模型中 , WAN 只有一个，通过指定 LAN 和 MAN 数量以及各自 
内部所包含节点的数量来构造拓扑图 .Transit-Stub 模型 [8] 将 AS 域划分为 Transit 类和 Stub 类.在该模型 
中 , Transit 节点彼此互联构成一个节点群，一个或多个 Transit 节点群构成拓扑图的核心，而 Stub 节点分布在 
Transit 节点群四周与 Transit 节点相连 .Transit-Stub 是 GT-ITM(georgia tech Internetwork topology models ) 软件 
包的一部分，有时 GT-ITM 也就是指 Transit-Stub 模型 . 

(3) 幕率型 .1999 年 , Faloutsos 等人 [9] 对 NLANR(National Lab for Applied Network Research ) 在 1997~1998 
年间的 3 份 BGP 数据以及 1995 年的一份 traceroute 测量数据进行分析，发现 Internet 拓扑中存在着 4 条幂律 . 
幂律是指形如 y 。 / 的方程，对于两个变量 x 和 y, 存在一个常数 c, 使得 y 与 jt 的 c 次幂成比例 . 

有两个声明 :(1 )节点 V 的等级为 r v ,v 是在按出度降序排列序列中的索 引值 ; (2 ) 邻接矩阵特征值按降序排 
列 ，第/ 个特征 值为冬 

幂律 1( 等级指数 幻 : 节 点出度元与该节点等级的 i? 次幂成比例 . 

幂律 2( 出度指数 0): 出度频率与该出度的 0 次幂成比例 . 

近似幕律 (hop-plot 指数跳内节点对 (pairs of nodes) 的数量与的好次幂成比例 . 

幂律 3( 特征指数幻 : 特征值不与其次 序 / 的 £ 次幂成比例 . 

幂律 1 说明在 Internet 中既不存在 Waxman 模型中那样的 “ 平等 ” ，也不像 Tiers 和 Transit-Stub 模型那样“等 
级森严 ”, 而是具有一种松散的层次性 . 幂律 1 和幂律 2 反映出这些系统具有高度非均一性，即少数节点具有很高 
的出度，而大量节点具有较小的出度，直接否定了 Waxman 模型中节点分布规律 . 近似幂律中的 hop-plot 指数 // 
可以用来对拓扑图进行分类，例如，对于环 ，开 =1; 对于二维网格 ，丑 =2. 对于 Internet, 在 AS 级上 ,//=4.7 [9] ;在路由器 
级上 ,//»2.8 [9] . 幂律 3 可以用来进一步对相似的同类图形进行区分 . 幂律的发现也给出一个启示 ilntemet 中某个 
属性值的平均值不能准确地刻画这一属性，应该尝试用某个指数来进行刻画 . 

对幂律的概念化形象描述是 2001 年 Tauro 等人 [22] 针对幂律 1 和幂律 2 提出的一种概念模型.这个模型将 
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AS 级拓扑图看作一只水 母 : 水 母的帽子代表 Internet 的核心，随着与核心的远离，节点重要性逐渐下降，中间的腿 
比两边的长表示出度为 1 的节点具有聚 集性 ; 网络对随机故障是鲁棒的 , 而若在核心出了故障却是灾难性的.幂 
律的发现激发了研究人员在 Internet 拓扑结构中寻找更多的规律，也引起了学术界的广泛关注 .2001 年 ， Magoni 
和 Pansiot [23] S NLANR 在 1997-2000 年间的 BGP 数据进行更细致的分析，提出了 Internet 拓扑发展的 5 条经 
验规律以及 4 条关于结点间最短路径和树结构的幂律 .2003 年 , Chalmers 等人 [3] 发现，在多播树的某些特征中也 
存在类似幂律的分布 . 

除了上面提到的度量之外，还存在许多其他拓扑度量来描述 Internet 拓扑特征 , 包括： 

1998 年 , Watts 和 Strogatz 在他们的 “small-world” 理论 [24] 中引入了两个度量 :(1) 平均路径长度，也称为特征 
路径长度，描述图的疏密程度，等于图中每对节点之间最短路径距离的平 均值 ; (2) 聚类系数 (clustering 
coefficient), 用来描绘图中出现的小集团.设节点 v 有 A 个邻居，那么邻居之间最多 有从 = 足《 -1)/2 条边 , C v 等于 
邻居间实际边数除以 M 的商，再将每个节点的 ( ：取平均就得到聚类系数 . 

2002 年 , Tangmimamnkit 等人 [25] 在对层次模型与幂律模型进行比较的过程中引入了 3 个度量 .(1 ) 膨胀 
(expansion), 描述扩散速度 . 对每个节点计算其在有限跳内可达的节点数量，然后取平均值,再用节点总数来规格 
化乂 2) 恢复 (resilience), 描述备用路径的存在性 . 将一个连通图划分为近似相等的两个连通图的最小割集大小 , 
反映图对于连接故障的鲁棒性 .(3) 扭曲 (distortion), 描述一个图像一棵树的程度 . 对图 G 的一棵生成树 r,G 中相 
邻两点在 r 上距离的平均值就是值，这表示如果把路径限定在 r 上 , G 中相邻的两点需要走多少额外的跳数 , 
图 G 的扭曲值 5 就是所有生成树的值中最小的 . 

另外，还包括 :(1) 平均偏心度 (average eccentricity): 每个节点的偏心度是它到其他节点距离中的最大值，平 
均偏心度就是所有节点偏心度的平均值，反映了图的直径 .(2) 最大团尺寸 (maximum clique size ): 节点两两相连 
的图称为团， Internet 拓扑的最大团就是 Internet 的核心 .(3) 正规拉普拉斯谱 (normalized Laplacian spectrum). 
2003 年 , Gkantsidis 等人 [26] 采用谱过滤技术对 AS 级拓扑邻接矩阵进行正规拉普拉斯谱分析，反映出拓扑结构中 
节点群及其等级的高低 . 

3 拓扑生成算法 

除了 Waxman,Tiers 和 Transit-Stub 模型中的 3 种拓扑图生成算法之外，目前共有 5 种遵循幂律的拓扑图生 
成算法以及 1 种图取样 (map sampling) 算法 . 这 5 种幂律拓扑生成算法都是针对幂律 2 的,而其他拓扑度量都是 
在拓扑生成器中进行优化的 .5 种幂律算法可以分为两类 : 一类 是直接按照幂律来为节点分配出度，包括 PLOD 
和 PLGR(Model A); 另一类则通过模拟 Internet 进化过程来满足幂律，包括 BA ， ESF 和 GPL. 

PLOD(power-law outdegree) [11] 是 Palmer 等人于 2000 年提出来的 . 算法首先确定图中节点数量，根据幂律中 
的指数分布为每个节点分配一个出度贷款 (credit). 然后循环从图中随机选取一对节点，如果这对节点不同且尚 
未连接，并且各自的出度贷款还有剩余 , 则将它们相连，各自的出度贷款减 1 ,直到再也找不到满足上述条件的节 
点对为止 . 

PLRG(power-law random graphs) [12] 是 2000 年由 Aiello 等人提出来的，也被称为 Model A . 算法先按照幂律 
为每个节点分配出度，然后构造一个包含每个节点的出度个数拷贝的集合，最后对该集合进行随机匹配,匹配的 
节点间相连 . 

1999 年，美国圣玛丽亚大学 (University of Notre Dame) 物理系自组织系统研究组的 BaraMsi 与 Albert [13] 在 
对无尺度网络进行研究时提出了幂律产生的两个系统根源 : 增长 (growth) 和优先附着 (preferential attachment) 
( 例如，新加入节点优先依附于出度高的节点 ). 前一个特点表明无尺度网络可以不断地扩张，后一个特点则意味 
着两个节点连接能力的差异可以随着网络的扩张而增大 , S 卩 “ 富者愈富 ” .BA ， ESF 和 GLP 都根据这一理论通过 
模拟网络发展过程来构造拓扑图 . 在实现优先附着时 ,3 个模型采用线性优先，即一个新加入节点与图中已存在 
节点 v 相连接的概率 I 与该节点出度乂 . 的大小线性相关 . 

L(v) = (d v -c)/X(dj-c),c<l (2) 
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其中 j' 属于图中已存在节点集合 ; ^ 为常数，其值越小，优先附着性越弱 . 

BA(Barabasi-Albert)model [ 13] 是 Barabasi 和 Albert 在提出幕律产生的两个原因的同时提出的一种生成算法 . 
在该算法中 c=0, 先从少量的 m 。 个节点开始，每隔一段时间增加一个出度为 mpm 。 ) 的新节点 . 

ESF(extended scale free model) [14] S Barabasi fD Albert 于 2000 年提出的 BA 模型的扩展版本.模型中加入 
了新的 Internet 发展 特征 : 在网络发展过程中 , 已有连接会发生变化，即重新连接 (rewiring). 算法中 c=l, 设 4 个常 
数 : P(O<P<1),0O<2<1-P), 正整数 m 和初始的 m 。 个节点 . 过程为 3 步 , 循环反 复 : 第 1 步，以 概率尸 增加 m 条边 ; 
第 2 步 , 以概率 0 对 m 条边重新 连接 ; 第 3 步 , 以概率 1-P-Q 增加一个有 m 条边的新节点 . 

GLP(generalized linear preference) 1151 . 2002 年 ， Tian Bu 与 Towsley 针对 PLRG，BA 和 ESF 生成的拓扑图与真 
实 Internet 拓扑图在 “small-world” 理论中的特征路径长度和聚类系数上存在差异，提出了一种新的拓扑生成算 
法 . 在该算法中 , c 为参数，以由 m 0 -l 条边相连的 m 。 个节点开始，每一步进行下面两个操作之一 :(1) 以概率 p 增 
加 mGm 。 ) 条边 ; (2) 以概率 1-p 添加一个出度为 m 的新节点 . 

图取样 (map sampling) [16] 法是 Magoni 和 Pansiot 在 2002 年提出来的 . 图取样法生成的拓扑图不是 “ 凭空”制 
造的 , 而是以真实的 Internet 拓扑图加上指定的节点数量和平均出度作为输入参数，再从 Internet 拓扑图中随机 
选取一幅子图，按照算法从子图中随机抽取部分节点，最后输出一幅符合 Internet 拓扑特征的路由器级拓扑图 . 

4 拓扑生成器 

拓扑生成器是拓扑生成算法的软件实现，设计目标可归纳为 3 点 :(1) 代表性，即生成的人工拓扑图要能够 
准确反映实际 Internet 拓扑的各个 方面 ; (2) 包含性，即将许多生成模型合并在一起,提供一个通用的拓扑生成工 
具 ; (3) 兼容性，即为网络模拟应用程序 ( 如 ns-2) 以及可视化工具 ( 如 C.AIDA 的 Otter) 提供接口.为了实现这些目 
标，一个拓扑生成器主要包括 3 个功能模块 :(1) 格式转换 . 由于目前没有统一的拓扑数据文件格式标准,所以拓 
扑生成器要具有在各种拓扑测量数据，拓扑生成器输入输出数据以及网络模拟软件输入数据之间进行文件格 
式转换的功能 .(2) 拓扑生成 . 这是拓扑生成器的核心 . 除了根据已有的拓扑生成算法实现幂律之外，还要依据其 
他度量来产生拓扑图 .(3) 拓扑分析 . 根据拓扑生成模块中所采用的度量来对拓扑数据进行统计分析，给出度量 
的值 . 目前，专门的拓扑生成器有以下 3 种： 

BRITE(Boston University representative Internet topology generator) [17] S 波士顿大学于 2001 年开发的一个 
通用拓扑产生器 . 其特点在于 “ 通用 ” : 首先 ，它实现了 Waxman 模型和 BA 算法，并可以用自顶向下和 A 底向上两 
种方法来产生 GT-ITM 层次 模型 ; 其次，它为多个网络模拟程序提供接口，包括 ns-2,SSF,0mnet++ ， JavaSim , 并支 
持可视化工具 Otter.BRITE 产生路由器级和 AS 级拓扑图，并可为连接分配带宽和延迟 , 具有图形用户接口 . 

111 过 [18] 是密歇根大学于 1999~2002 年间开发的一个 AS 级拓扑产生器，最新发布的是 3.0 版本.其特点是利 
用 route-views.oregon-ix.net 上 1997 年 11 月 ~2002 年 2 月间的大量 BGP 数据来确定拓扑度量的值，可信性很 
高 .Inet 采用 PLGR 算法与优先附着实现幂律，重视连通性 ( 最小节点覆盖)，并针对最大团尺寸和聚类系数做了优 
化 .Inet 使用简便，只需在命令行输入拓扑图中节点总数即可 . 

nem(network manipulator) 1191 是法国 ULPS 大学 (University of Louis Pasteur Strasbourg) 于 2002 年开发的.其 
特点是具有通用性，并对拓扑图在最短路径长度和树结构方面的度量进行优化 .nem 实现了除早期 3 种算法与 
GLP 之外的全部 5 种拓扑生成算法 .nem 将拓扑特征分为 5 类 : 树、 距离、连通性、节点对最短路径数以及类 
别 (class, 包括叶上节点数、环上节点数等 ) ，可对这 5 类特征进行分析 .nem 为网络模拟软件 ns-2,Gl 0 M 0 Sim 和 
OPNet 提供接口，以批处理文本文件作为用户接口 . 

不包括幂率模型，上面一共介绍了 12 种能够产生拓扑图的拓扑模型、拓扑生成算法或拓扑生成器，那么它 
们之中哪一个最接近 Internet 拓扑结构呢 ? 可以这样说，在它们之中每一个被提出来时，都与当时已经存在的模 
型或算法进行了分析比较，以证明自己更优秀 . 也就是说 , 对这些模型或算法的评价可以参照它们的 “ 生日”来进 
行 . 己发表的最新比较工作是 2002 年 Magoni 和 Pansiot [27 W 6 个具有代表性的网络拓扑生成器的 15 项指标进 
行的测评 . 测评指标涵盖了幂律、路径长度和多播树相关度量 . 满分为 40 分 , 测评成绩从高到底为 nem(38 
分 ), ESF 与 Inet2.1(33 分 )， Model A 与 PLOD(31 分 ), BRITE(21 分 ) . 可见，目前的拓扑模型和产生器可以产生很接 
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近 Internet 的拓扑图了 . 

5 难点问题与研究路线 

Internet 拓扑研究目前面临的主要困难来自于两个方面:一方面是 Internet 自身复杂的特性;另一方面是缺 
乏进行系统研究的方法论 . 

Internet 自身性质带来的问题主要集中在拓扑测量上，具体表现在 : 拓扑结构动态变化影响测量准确性;其 
庞大的规模影响了测量数据的完 整性 ; 异构性与管理的非集中性增加了测量的技术难度 [1] . 因此客观地说，目前 
的网络测量技术无法获得完整而准确的 Internet 拓扑图，现有的 Internet 拓扑模型都存在一定的局限性.由此引 
发的问题是 :Internet 拓扑中真的存在幂律吗 ? 这个疑问的产生来自于两点:⑴ Qian Chen 等人 [M] 发现 Faloutsos 
等人 [13] 在发现幂律时所用的 AS 拓扑数据丢失了 20%~50% 的物理连接，与真实的网络拓扑之间存在很大差异， 
也就是说，幂律并不能严格地刻画 Internet 拓扑 ; (2) Lakhina 等人 [21] 也对幂律的正确性提出了挑战，指出由少数 
探测源点和庞大的目标节点构成的探测体系由于最短路径原理的作用而存在采样偏见 (sampling biases). 文章 
指出，采用这种存在采样偏见的技术对 Waxman 模型产生的拓扑图进行测量，实验结果同样会满足幂律.另 
外 , Internet 的动态性也缩短了拓扑模型中静态元素的寿命，使得拓扑建模研究不能仅仅描述当前 Internet 的表 
象 , 还要发现其背后的驱动机制.由此引发了另一个问题 :Int e met 拓扑中的幂律是如何形成的？对于这个问 
题 , Qian Chen 等人 [2e] 提出，历史拓扑数据不能支持 BA 模型中提出的基于连通性动力学对 Internet 发展所作的 
假设,建议从 HOT(highly optimized tolerance) 理论中寻求答案 . 

随着研究的不断深入，人们发现 Internet 不只是硬件加上软件，而是在一定意义上进行 “ 新陈代谢”的自组织 
系统 .Internet 拓扑与万维网(通过 URL 连接 ) 、细胞网络 ( 通过化学反应连接 ) 、人际关系网、科学文献引用网络 
等具有共同的内在特征 一一 自相似性，并且认识到对 Internet 拓扑缺乏了解并不只是一个计算机科学问题，而是 
源于缺少一个对复杂网络进行特征化的科学框架 [1(1] . 因此，成功建立 Internet 拓扑模型要依赖于科学界在上述 
领域的共同努力，拓扑建模的研究成果也会促进这一科学框架的形成 . 

综上所述，今后 Internet 拓扑建模的研究路线主要包括以下 3 个方面 :(1) 通过分析路由协议与协议栈来开 
发新的拓扑测量技术，提高数据完整性以及路由器多接口合并比例,以求从新数据中发现新特征将数据挖 
掘与图论两者结合起来，从现有数据中发现新 特征 ; (3) 借鉴其他复杂网络的研究成果，特别是复杂系统中具有 
普遍性的原理，以发现 Internet 拓扑形成的内在机制 . 
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任意识作业调度算法多基于传统的作业调度算法 
扩展而来，对作业需求与资源固有属性间关系缺乏 
把握，难以在真实网格计算得到实际应用。其中具 
有代表性研究包括： Azzedin 与 Maheswaran [1] 等人 
首次将“信任”融入网格资源管理，提出考虑信 
任因素的作业调度会引入额外负载并设计了负 
载最小化算法。 Humphrey [2] 等人对具有安全意识 
的网格计算模型进行了深入研究。 Abawajy [3] 等 
人提出的 DFTS 分布式失效容忍调度策略，通过 
复制作业的多个副本到不同站点保证作业在网 
格环境下可靠运行。 Dogan [4] 和 Shanshan Song l5J 
提出了最小化失效率的网格信任调度框架和调 
度算法。 

本文详细阐述了网格计算中信任基本概念， 
确立作业与资源间的信任关系，采用信任效益函 
数量化不同信任关系下调度结果对安全性与可 
靠性影响，提出了信任驱动的网格作业调度问 
题。通过对传统作业调度算法进行信任扩展，提 
出了两种信任驱动的网格作业调度启发式。仿真 
实验证明信任驱动的启发式调度算法在平均信 
任效益值和总信任效益值方面优于时间驱动的 
调度算法。 

2概念与问题描述 

2.1 信任模型 

信任是一个非常复杂的主观概念，目前没有一 
致的定义 [6 ' 7] 。本文对信任的定义 如下： 

定义1信任 由信任值表征的客观实体的 
身份和行为的可信度评估，信任值取决于实体可 
靠性、诚信和性能等。计算网格信任模型主要由 


RawSecUtil sttons ( i , j ) = 


资源信任属性、作业信任属性及其相互间信任关 
系构成。 

资源信任属性包含如下两个方面： 1) 安 全性： 
衡量网格资源对作业和数据的真实性、保密性和完 
整性的保障程度。本文采用资源安全级别 (resource 
security value ) 量化资源安全属性。 2) 可靠性：长 
时间执行的作业有可能因为某个资源失效导致运行 
失败甚至重启，造成系统资源浪费和系统性能低下。 
本文量化资源可靠性 (resource reliability value ) 为 
单位时间内失效概率。 

作业信任属性指网格用户提交作业请求时，对 
作业运行的安全性和可靠性要求。本文分别采用作 
业安全级别 (job security demand ) 与可靠性级别 （job 
reliability demand ) 量化作业信任属性。 

2.2 信任效益函数 

根据调度过程中作业对资源信任值的要求， 
作业与资源间的信任关系可以分为强 （ strong ) 
信任关系、弱 （ weak ) 信任关系与无信任关系。 
强信任关系是指作业调度时作业安全与可靠性 
需求级别必须高于所分配资源的固有属性值，如 
果不存在满足条件的资源，则此作业将被放弃执 
行。作业最终效益值或者为最大，或者为零。弱 
信任关系指作业调度算法尽量保证作业信任值 
高于资源的信任值，此时作业可获得最大 效益； 
否则作业可降低信任需求，但其效益值随之下 
降。无信任关系指调度算法在调度过程中不考 
虑作业与资源间的信任关系，以最短执行时间 
为目标。本文定义信任关系为 strong 、 weak 、 
no 的作业 f , •在资源 m ； 上执行的原始安全性效益 
函数如下 

1, if JS ：^ RS ： 

( 1 ) 

0,其他 


RawSecUtil vieak ( i , j ) = 


1 — ( RSj - JSt ) l ( max_level - RSj ), 


if JS ^ RS ： 

1 J 

其他 


(2) 


RawSecUtil no ( i , j ) = JS : / max — level 

同理，信任关系为 strong 、 weak 、 no 作业 f , ■在资源7巧上执行的原始可靠性效益函数定义如下 


RawReliUtil stmns ( i , j ) = 


1, if JR , ^ RR Lj 

0,其他 


(3) 


⑷ 
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1 exp(-(^. .+1-7^)) 

RawReliUtil weak (i,j) = ^ exp(-(l-7^))^ 甘仙 （ 5 ) 

7 ~1 也 
i exp(-l) 

_ exp(-(l-yi?,.)) 


RawReliUtil ao ( i , j ) = (1 - exp (—尺尺, ))/(1 — exp (- l )) 

( 6 ) 

其中，作业可靠性需求 JRi ^(0,1 ), 而资源可靠性 
RR U 由作业 f , ■和资源 m ； 共同决定。设调度开始时每个 
计算资源固有失效率为 F &。 随时间增加失效的概率 
逐渐增大，可靠度减小。作业 f ,. 在％上的完成时间为 
CT U , 则可靠度为 RR ^ expi-CTij - FR 』)。 

可以定义作业 f , •在资源 m 7 +上所获得的信任效 
益函数如式 （7) 所示，其中_和>1； 2 是安全性和 
可靠性上的重要性权值。显然，信任效益函数值 
越大表示作业映射后执行越稳定，执行结果愈加 
可信。 

TrustUtil ( i , j )= w \ • RawSecuUtil ( i , j )-\- 

W2 • RawReliUtil { i , j ), st . wi + W2 = 1 (7) 

定义 2 信任驱动的网格作业调度 问题： 给定 
m 个异构计算资源组成的网格环境 M = { m ^ m 2 , … 
m m ), n 个独立作业构成的作业集合 r={? b t 2 ,--- t n }, 
求映射方案 map = ( a , s ) (其中 a : T ^ M 为表示资源 
分配的映射， a ( i )= J 表示将^分配到 •上， s :{( i , a { i))\i 
[ T}—N ={1，2,3,…}为表示在资源上的作业调度函 
数， s (/， 力表示在计算资源 m y •上第/:个执行的作 
业是使得 

Maximize TrustUtil ( map ) (8) 

3信任驱动的网格作业调度启发式算法 

信任驱动的网格环境作业调度是 NP 困难的，需 
要借助启发式算法。传统最小化作业完成时间为目 
标的批作业调度启发式算法，包括 OLB 、Greedy 、 
Fast Greedy 、 Min - min 、 Max - min 、 Sufferage 、 A *、 
Simulated Annealing、Tabu search、Genetic 算法等 [8 ’ 9] 。 
本节以算法速度快、性能好的 Min - min 和 Sufferage 
算法为框架，提出了信任驱动的 Min - min 和 Sufferage 
作业调度算法。 

3.1 信任驱动的 Min-min 启发式 

算法 思想： 信任驱动的 Min - min 算法为两阶段 
启发式，首先计算每个作业在各网格计算资源上的 


最大信任效益函数值，然后，选择信任效益最大的 
作业一资源对进行映射。算法描述 如下： 

算法 1 Trust Driven Min-min () 

输入： 作业与资源信任信息， £7 T 矩阵 
输出：作业映射方案 map 

1. 初 始化： 令 r 为所有作业的集合， M 为所 
有资源的集合，集合 cr =0 保存作业一资源对 

2. repeat 

3. CT 置 为空； 

4. for T 中每一个作业 f ,. 

5. forM 中每一台资源 

6. if 资源 m ； 能满足作业 f ,. 的信任需求 

7. 计算 f ,. 在上的信任效益 
TrustUtil(ij )； 

8. endif . 

9. endfor . 

10. if 所有资源均无法满足作业信任需求 

11. 将 f ,. 从 r 中 除去； 

12. else 找出使作业 f ,_ 的信任效益值最大 
的资源，将此作业-资源对保存到 cr 中； 

13. endfor . 

14. 从 CT 中找出信任值最大作业资源对 (4 m ；); 

15. 将 um 3\ 唧作业队列末尾，从： T 中除去 f ,' ; 

16. until(r 为空). 

3.2 信任驱动的 Sufferage 启发式 

算法 思想： 为了得到一个更好的调度结果， 
可以优先为每个指定的资源分配给这样一个作 
业： 如果该作业不在该资源上调度执行，则该作 
业产生的信任效益值相比预期的最佳效益值将亏 
损最多。 

算法 2 Trust Driven Sufferage () 

输入： 作业与资源信任信息， CTC 矩阵 
输出：作业映射方案 map 
1. 令 r 为所有作业集， M 为所有资 源集; f/rge 
为紧迫作业集，如#为考虑亏损值进行调度的作业 
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的 集合； 

2. for T 中每一个作业 

3. for M 中每一台资源 m ； 

4. 计算 A •在上的信任效益(/，/) 
和作业完成 时间； 

5. endfor . 

6. for M 中每一台资源 my 

7. 找出使^信任效益值最大的资源 m max 
和次大资源 m max -next ； 

8. endfor . 

9. if 所有资源均无法满足作业 d 言任需求 

10. 从 r 中除去以 

11. endif . 

12. if 只有一台资源能够满足作业 f , •信任 

需求 

13. 将 f , ■加入到 f / rge 中； 

14. else 

15. 将0加入到如# 中； 

16. endif . 

17. endfor . 

18. repeat 

19. 将 M 中所有资源标记为未 分配； 

20. for Urge 中每一个作业 f ,- 

21. if f , ■对应的资源 w ； 标记为未分配 

22. 将 f ,_ 分配到％的作业队列 末尾； 

从 r 中除去 f ,. ; 将标记为已 分配； 

23. endif . 

24. endfor . 

25. for 中每一个作业 f ,_ 

26. 计算 Sufferageiti ).， 

27. ifw max 标记为未分配 

28. 将分配到 rn max 的作业队列 末尾； 

从 r 中除去 f ,. ; 将 W max 标记为已分配； 

29. else if ( w max 的作业队列末尾的作业 
4不是紧迫作业 && Sufferage ( Ji ) > Sujferage ( t ^)) 

30. 将&从 w max 的作业队列中除 
去并加入到 r 中； 

31. 将 f ,+ 分配到 m max 的作业队列 
末尾并从 r 中 除去； 

32. endif . 


33. endfor . 

34. 重新计算 r 中剩余作业的最大与次大信 
任效益值并将作业加入到 Urge 或如# 中； 

35. until(r 为空). 

紧迫作业定义为当前只有一个资源能够满足 
其信任需求的作业。作业效益亏损值定义为最大效 
益和次大效益（资源 W max 与 W max _ next l 获得）之差， 
即： Sujfage{ti)=TrustUtil(i, ?n max )-TrustUtil(i.m mia . nex ^o 

4仿真实验 

4.1 实验内容与设置 

仿真实验考察20〜50个计算资源组成的网 
格系统对40〜500个独立作业构成的作业集合调 
度情况。 

资源安全级别兄 S 设置为四个级别 { poor , / ow ， 
medium, high} ， 每个资源的安全级别在此区间内随 
机生成。资源的单位时间失效率 FT ? 在区间[0.0001， 
0.0015] 上随机生成。 

作业安全需求级别乃设置与资源安全级别 
设置相同，每个作业安全需求级别在此区间内随机 
生成。作业安全需求 级别从 在强、弱信任关系的 
情况下根据公式■/尺 =(0.9+0. 1 X rand) X exp { 10 4 X 
(作业数/主机数 )} 生成。其中 rand 均勻分布在 
[0,1 ]。 作业在在计算资源上的预期执行时间 ETC 
根据文献 [10] 中方案取 ^ask=/imach=100, V task = 
Vmach=0.6 生成。每个作业随机设置优先级 
Pi G { low, media, high} 。 设置变量 控制 

作业与资源间的信任关系。生成一个[0,1 ] 间随机 
数，如果该数小于 0.25y q , 则称两者具有强信任 
关系； 该 数小于 0.5 V q , 具有弱信任 关系； 否则， 
为无信任关系。信任效益函数式 （7) 中 Wi 、 W 2 
取值均为 0.5 。 

4.2 实验结果与性能分析 

本节采用作业平均信任效益值、总信任效益值 
等性能指标对上述启发式算法进行综合评价。 

平均信任效益是所有被成功调度的作业所获 
的平均信任效益，从用户角度对调度算法的性能进 
行评价，表征用户向系统提交作业后平均从系统获 
得多大的信任效益。 

从图1中可以看出信任驱动的启发式所获得的 
平均信任效益要明显的优于无信任驱动的 Min - min 。 
两种启发式算法中 TD Min - min 在各种情况下均能 
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(c)w=20 ， K q =3 
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任务数目 

(b)m=20, V q =2 



(d)m=50, Vq =1 


0.720 
0.715 
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J 0.690 
^ 0.685 
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任务数目 

(e)/w=50, I>q=2 


任务数目 

(f)ra=50, Ki=3 


图 1 m=20 与 50 时 V q 变化对平均信任效益的影响 


获得较大的平均信任效益。总作业数和 v q 的变化对 
它们的平均信任效益影响很小 。 TD Sufferage 在一 
些情况下能够获得很好的平均信任效益(如 m =50, 
Vq = l )。 但是 Sufferage 对总作业数和的变化较 
为敏感，当总作业数和 Vq 增大时， Sufferage 性能 
下降较为明显。 

总信任效益是系统对批作业调度结果中所有 
被成功调度的作业所获得的总信任， 

TotalTrustUtil = ^ TrustUtilit^aitj)) ，是调度算法 


性能系统级评价指标。获得总信任效益大的调度算 
法能够为系统提供较好的信任服务。 

从图2中可以看出，信任驱动的启发式所获得 
的总信任效益要明显的优于无信任驱动的 
Min-mino TD Sufferage 总信任效益受作业数和 Vq 
影响较大。在 Vq 较小时 ， TD Sufferage 的总信任效 
益优于 TD Min - min , 但随着的增加 Sufferage 的 
性能下降较快甚至接近于 Min-min Cm =50, V q =3)。 
TD Min - min 获得的总信任效益在不同情况下性能 
最为稳定。 







• 78 • 


通信学报 


第27卷 



任务数目 

(a)w= 20 , ^ = 1 



任务数目 
(c)//7=20,K!=3 



(e)m=50, K, =2 





任务数目 

(f)w=50, ^=3 


图 2 m=20 与 50 时 Vq 变化对总信任效益的影响 


5小结 

信任机制与作业调度机制有效融合是真实 
网格环境中大规模分布式资源管理难题之一。本 
文通过引入网格环境下信任机制，量化作业与资 
源间不同信任关系下信任效益函数，提出了信任 
驱动的网格作业调度问题。对传统批作业调度算 
法进行算法信任扩展，提出了信任驱动的 
Min - min 和 Sufferage 算法。仿真实验证明信任驱 
动的启发式算法在信任效益值方面优于传统的 
Min-min 算法。 
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Abstract: Measuring and characterizing the topological properties of peer-to-peer networks will benefit the 
optimization, management of the P2P systems. It seems infeasible to capture a complete and precise snapshot of P2P 
overlay networks due to the variety of P2P protocols and dynamics of the servents. Studying the details of P2P 
protocols and analyzing the specific P2P overlay network instance become an alternative method for this goal. In 
this paper, the measured Gnutella network topology is basically taken as an example. The architecture and 
performance of the distributed crawling system (called D-Crawler system) with feedback mechanism is presented. 
The properties of degree-rank distributions and degree-frequency distributions of the measured topology graphs are 
analyzed in detail. The small world characteristics for Gnutella network are discussed. The results show that the P2P 
overlay network topology characters are closely related to the P2P protocols and clients’ behaviors. Gnutella 
network shows different characters in each tier. The top level graphs fit the power law in degree-rank distribution, 
but follow the Gaussian function in degree-frequency distribution. The bottom level graphs show weak power law in 
its degree-rank distribution, but are power law in its degree-frequency distribution. Fitting results indicate that 
power law could fit better for the degree-rank distribution and degree-frequency distribution of bottom level graphs, 
Gaussian could describe the degree-frequency distribution of the top level graphs. Gnutella overlay network has the 
small world property, but it is not the scale-free network, its topology may have developed over time following a 
different set of growth processes from those of the BA (Barabasi-Albert) model. 

Key words: P2P overlay network; topology measurement; power law; clustering coefficient; small world 
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摘要：测量分析对等网络 (peer-to-peer networks) 拓扑特征是解决 P2P 优化、网络监管等问题的基础.对等网络是 
一类大规模、自组织、并且高度动态的复杂网络系统,准确、完整地测量所有对等网络拓扑面临很大困难.研究对 
等网络的协议特点，分析特定 P2P 拓扑实例成为认识 P2P 拓扑特性的一种可选研究方案.以 Gnutella 网络为测量对 
象，定义了对等网络拓扑测量系统准确性、完整性的衡量指标，设计、实现了基于正反馈的分布式 Gnutella 拓扑爬 
行器 —— D-Crawler; 分析了 Gnutella 网络拓扑图的度等级分布特征、度频率分布特征以及小世界特性.实验和分析 
结果表明，对等网络拓扑图属性特征与其使用的协议和客户端软件行为密切 相关; Gnutella 网络中不同层次的节点 
之间的拓扑关系表现出不同的 特性: 上层节点组成的子图具有度等级幂律特征，但在其度频率分布上却呈现出正态 
分布的 特性; 下层节点在度等级分布上的幂律特征表现不强烈，而在其度频率分布特征上具有明显的幂律特性.拟合 
结果表明:幂律能够较好地拟合度等级分布和下层节点度频率分布，然而对于上层节点度概率密度分布， Gaussian 拟 
合效果最好 .Gnutella 网络具有小世界特性，即 : 较大的聚集系数和较小的特征路径长度，但它不是无尺度图，不符合 
BA(BaraMsi-Albert) 生长模型，其发展遵循一种不同于 BA 模型的生长过程. 

关 键词： 对等网 络; 拓扑 测量;幂律; 聚集系 数; 小世界 
中图法分 类号： TP393 文献标 识码 ： A 

主机计算、存储能力和网络带宽的不断提高，使对等技术重新成为人们关注的焦点 .Internet 中出现了多种 
基于 P2P 技术的覆盖网络，它们拥有强大的用户群体，影响着整个 Internet 的行为 [M] . 对于如此庞大的一类 
Internet 覆盖网络，深入了解其拓扑结构性质有助于准确地模拟，从而更好地设计和发展对等网络 . 同时，通过分 
析对等网络的拓扑特性，有助于网络安全和对等网络监控等技术的发展 . 此外，研究 P2P 网络特性可以验证复杂 
网络系统研究中己有的理论结论 . 通过分析单个网络图，可以了解对等网络各种拓扑特性 ( 例如，度分布特性、网 
络直径等 ) ，而对多个网络图进行跟踪分析，可以获得对等网络的动态特性 ( 例如，网络结构的变化、节点上/下线 
情况等 ). 分析 P2P 网络的拓扑特性，需要构造网络拓扑爬行器，爬行器采用与网页爬虫类似的方法，依次询问对等 
网络中的每个节点，获取节点之间的邻接关系 . 然而，完整、准确地获取对等网络拓扑结构还存在很大困难，主要 
原因在于 :(1) 对等网络具有极强的动态特性 [4] . 这要求爬行器能够快速访问网络中的节点，但爬行器的速度不 
仅受限于自身的网络访问能力，还与其爬行过程中交互节点的网络访问速度有关 . 在爬行器拓扑获取期间，网络 
的拓扑数据总会发生或多或少的 形变 ; (2) P2P 网络中存在一些不可达节点 [5] ( 例如，节点在防火墙后面、在 
NAT(network address translation ， 网络地址转换 ) 之后等 ). 这些节点本属于 P2P 网络，但爬行器不能获取其邻居信 
息，导致获取的网络拓扑不完全 . 因此，对等网络拓扑爬行器设计的关键问题是寻求测量结果准确性与完整性的 
合理折衷 . 

Gnutella 网络是一类典型的非结构化对等网络，拥有百万级在线用户群，用户分布广泛，测量具有代表性.此 
外， Gnutella 网络采用了新的协议，网络呈现出新的拓扑特性，需要重新深入分析拓扑结构.本文通过分析已有的 
研究工作 [4_9] , 利用复杂网络理论和代数图论理论研究成果对 Gnutella 网络进行测量，分析获取的 Gnutella 网络拓 
扑图属性特征 . 相应的测量、分析方法可以应用于其他对等网络拓扑测量实例 . 

1背景介绍 

对网络拓扑性质的研究有 3 个重要的里程碑 : ⑴ 1960 年 , Erdijs 和 R6nyi 提出了 ER 随机图模型理论 [1()] .1999 
年以前，人们主要采用基于 ER 模型模拟的方法研究大规模网络拓扑 性质 ; (2) 1998 年 , Watts 和 Str 0 gatz [11] 在 
《 Nature 》 杂志上发表文章，引入了小世界 (small-world) 网络模型，以描述从完全规则网络到完全随机网络的转 
变 ; (3) 1999 年， Barabdsi 和 Albert 在 《 Science 》 上发表文章 [12] ，提出了无标度模型，指出许多实际的复杂网络的连 
接度分布具有幂律形式 . 此外，在复杂网络的生长过程方面，人们也进行了一定的研究和探索 . 

Faloutsos 等人 [1 3] 采用幕律 (power-law) 模型来刻画 Internet 上自治系统级和路由器级的拓扑结构特征，并提 
出了度等级 (degree-rank) 幕律、度频率 (frequency-degree) 幕律和特征值等级 (eigenvalue-rank) 幂律.由于度频率 
幂律相当于考察的是度概率密度函数 (probability density function )， 而累积分布比概率密度具有更好的统计鲁 
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棒性，因此，文献 [14] 分析了频率 / rf 的补累积分布函数 (complementary cumulative distribution function )!^ 与度的 

关系，发现与 d 也具有幕律关系，即 Z ) rf cc〆 ， 称成;度指数 (degree exponent ), 称该幂律为 CCDFW ) - Degree 幂 

律,并使用度指数3刻画拓扑图的度分布特征. 

在对等网络拓扑特性分析方面，研究还不够深入，主要的工作集中在以 Gnutella 为代表的非结构化对等网络 
测量上 Jovam ) vi C [15] 在2001年对早期的 Gnutella 网络拓扑进行过测量，发现 Gnutella 网络拓扑节点的分布呈现幂 
律和小世界特性,受当时 Gnutella 网络发展的限制，只捕获到了 1 000个左右的节点，数据的说服力有限 .2002 
年, Saroiu 等人 [16] 测定了加入到 Napster 和 Gnutella 网络的端用户主机的数量和分布特性，分析了两个网络中节点 
的带宽、文件共享的数量分布等特性，指出，加入到这两个系统中的节点存在重要的异构特性，并且缺乏互操作 
性，限于当时对等网络协议，文中获取的节点数目平均在 11 K 左右，也没有详细分析网络的拓扑性质.文献 [17] 对 
Gnutella 网络的节点连接度和网络流量进行了详细的分析，构造了分布式 Gnutella 网络爬行器，能够在几小时内 
获取约 30 K 节点信息.通过分析，提出 Gnutella 网络的节点连接度分布符合幂律.随着 Gnutella 网络的不断发展，其 
网络特性发生了根本性变化， Stutzbach 等人 [4 _ 6] 分别在2004年和2005年发表了多篇关于 Gnutella 网络测量的论 
文，针对 Gnutella 网络的分层特性，构造了高速拓扑爬行器.在6台 Linux Box 上，其构造的爬行器节点获取速度可 
以达到每分钟 140 K ， 分析了 Gnutella 网络中超级节点 ( ultra - peers )、 叶子节点 ( leaf - peers ) 等度的连接特性，指出 
Gnutella 网络节点度分布是不服从幂律的 .2006 年， Xie [ ls ] 等人将 Gnutella 网络划分为 Mesh 和 Forest 两层，提出 
Mesh 层节点的度等级分布、度频率分布以及 Forest 层中树的大小分布等都具有幂律性质.在国内，对等网络的测 
量研究还不多见.•方面，对等网络研究刚刚起步,测量对等网络还比较 困难; 另一方面，相应的拓扑结构特性分 
析理论还不成熟.哈尔滨工业大学的刘刚 [8] 构造了支持 Gnutella v 0.4 协议的拓扑爬行器，分析多次拓扑快照，总 
结了 Gnutella 网络的小世界特性，验证了网络中存在度指数幂律、特征指数幂律等特性. 

综上所述，当前对 P 2 P 网络拓扑特性的认识还很不成熟，仅仅处于网络测量与数据观察层面，还没有从理论 
上深入分析对等网络拓扑特性.对于同一个网络拓扑图，其拓扑特性是多方面的，研究表明 [19] ，虽然节点度分布 
能够区分 ER 随机图(指数分布)和无标度图(幂律分布)，但具有相同 Degree - Rank 幂律分布的无标度网络可以拥 
有完全不同的结构.因此，仅仅依靠节点度的幂律分布来刻画对等网络的拓扑结构特征还不够，需要与其他度量 
结合起来 . Mitzenmacher [2<)] 研究了幕律和对数正态分布的模型，发现对数正态分布可以向幕律分布转 
化 . Chou [14] 找到了等级指数与出度指数0之间的理论关系 ，即如 1/(0+1).文献 [21] 进一步阐述了等级指数尺、出 
度指数0和度指数 D 三者之间的理论关系 ，即: Z ^ O + l , i ?» l / ZXMihail 等人 [22] 研究了图的特征值与节点度之间的 
关系，指 出:在 节点度具有幂律分布的图中，图的特征值 A , 以及节点度 < 的降序序列中，较大的特征值与较大的度 
之 间 

存在关系.文献 [23] 提出，无符号拉普拉斯谱能够较好地区分相同规模的不同图 . Watts [11] * 人采用聚集系 
数 (clustering coefficient ) 和平均路径长度来衡量图的小世界特性.在其他方面，还有利用平均离心率、平均跳距、 
最大连通子图、网络直径等衡量网络拓扑的性质. 

对等网络拓扑实例的特征分析研究还处于起步阶段，需要通过大量测量实际 P 2 P 覆盖网络拓扑，分析其拓 
扑图的共性及各自特点，从而能够深化对 P 2 P 网络拓扑结构的认识，为对等网络模拟、安全保障、协议优化、 
路由算法设计等提供有力的支持. 

2 Gnutella 网络拓扑测量 

Gnutella 的网络结构如图1所示，网络中同时存在3类节点， Bfl : 

(1) 负责查询消息路由的超级节点，这类节点在网络中占 少数； 

(2) 连接到超级节点上，能力较弱的叶子节点，叶子节点将自己共享的内容的哈希值上传到与其连接的超 
级节点上，不负责查询消息的转发 工作； 

(3) 尚未实现超级节点功能的传统节点 (legacy peers )， 这类节点不能与叶子节点相连,只能和网络中的超级 
节点建立连接. 
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本文把超级节点与传统节点一并称作 Gnutella 网络的上层节点,对应地，叶子节点被称作下层节点.本文将 
等同使用 Ultra 节点和上层节点、叶子节点和下层节点两组名称. 

本文根据 Gnutella v 0.6 协议特性设计了基于正反馈的分布式对等网络拓扑获取系统一一 D - Crawler . 系统 


緣 Leaf peers Ultra peers Legacy peers 



Fig . 1 The two tier system of Gnutella network 
图 1 Gnutella 网络的两层结构 

之间的逻辑关系如图 2 所示. 


包括拓扑信息采集、数据分析、系统输出反馈这3个 
部分.其中，拓扑信息采集并行采集网络中的节点及邻 
接关系数据，存入网络拓扑数据 总表; 数据分析部分根 
据网络拓扑总表，通过数据后处理剔除测量过程中引 
入的部分误差数据，提取 Gnutella 网络拓扑上层节点间 
度概率密度分布特征和节点度排名信息，将结果发送 
给系统输出反馈 模块; 后者根据上层节点度排名信息， 
调整拓扑信息采集部分的网络入口节点集合，同时，计 
算测量系统连续两次快照数据的稳定性指数 S (本文后 
面加以说明)作为判定拓扑数据是否“有效”的依据.当 
稳定性指数 S 满足用户设定的阈值时，输出网络拓扑 
关系数据(标识获取的网络拓扑总表为“有效”).各部分 



Fig .2 The framework of D-Crawler system 
图 2 D - Crawler 系统逻辑结构 

通常情况下，数据获取时大约40%左右的超级节点不能与 D - Crawler 直接建立连接.其原因有两个 :(1) 节点 
被 D - Crawler 访问时已经下线，不在 Gnutella 网络内，这种节点约占2%~3%;(2)节点处于防火墙背后或由于其 
他原因(例如节点忙碌)拒绝 TCP 连接请求，约占25%~34%.另外，在数据获取期间，大约有1%的节点状态发生了 
改变(由叶子节点转变为超级节点，或相反).基于上述原因，在作进一步拓扑特性分析之前,还需要对获取的数据 
进行后处理，主要包括:(1)忽略网络中拒绝连接的节点; (2) 获取的拓扑图转化为无向拓扑（节点间的 
TCP(transfer control protocol ) 连接是双向的); (3) 忽略叶子节点中，声称自己是另一个超级节点的邻居的节 
点; (4) 忽略叶子节点中，声称自己是另一个叶子节点的父亲的节点.数据后处理中，第2类操作影响5%的拓扑数 
据，第3类和第4类操作共影响的数据不超过1%. 

D - Crawler 能够在单台 P 4 CPU 2.8 GHz /512 M RAM 的机器上以 16 K / 分钟的速度访问 Gnutella 网络中的节 
点，节点地址信息的获取速度为 100 K 〜 160 K / 分钟.通过两台机器并行，能够在15分钟内获得超过 1.5 M 节点信 
息 .2005 年11月~2006年3月期间，本文在网通网上获取了几百个 Gnutella 网络拓扑快照.表1比较了当前4个 
主要的 P 2 P 网络拓扑爬行器与本文 D - Crawler 系统节点获取速度和硬件资源需求，从表中可以看出， D-Crawler 
系统能够利用较少的硬件资源，在短时间内获得大量的节点数据，节点信息获取速度较高. 

本文定义了拓扑图快照完整性和准确性衡量指标. 

定义 1 . 设分别表示网络中节点和边的 总数; 为测量系统当前获取节点、边的数量，定义拓扑数 
据完整性指数 s 为 
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£描述了测量系统在某一时刻获取的拓扑数据占网络总体的比例.实验分析表明，当爬行时间大于30分钟 
时，新增边、点获取速度非常小(小于 0.3 K / 分钟).因此在实际应用中，选择测量系统30分钟获取的节点和边的总 
数分别作为 iV max ，£ max . 

定义 2. 同时做两次反向爬行 ( back - to-back crawling )， 获取拓扑图0 0 ={1^，£ () },6 1 ={7 1 ,£ 1 }.定义0 ( ^ 1 的点差 
异集合 V 尸 { vIveWo - R ) 或 veWrV 。)}， 边差异集合 £ 尸 { eleef ^ o - f ^ SeeCA - Eo )}. 

定义 3. 设4为集合中元素个数，氏为 K 中元素个数，况五分别为节点数和边数的均值.定义拓扑数据 
形变指数5为 

4 + 4 

5 = ^L. 

2 

反映测量系统运行期间，拓扑图微观结构变化情况.测量系统越准确，5值越小. 

定义 4. 设^分别为 Go . Gii 层节点度排名前幻的节点分布序列，则拓扑数据稳定性指数 S 定义为 

s= _ K 'Zxy-'Zx'Zy _ 

" ^IK^-^xfHK^y 2 -^) 2 ] ' 

拓扑数据稳定性指数 S 衡量连续两次快照拓扑图节点度分布序列的相似程度，从而比较拓扑图在宏 
观结构上的一致性 . S 越大，说明测量系统获取的拓扑图越稳定，数据越可靠. 


Table 1 Comparison of different crawling systems 

表 i 爬行器系统性能比较 


System name 

Crawling duration 

Nodes achieved 

PCs required 

D-Crawler 

10-15 minutes 

1.5M-3M 

2 clients, 1 server 

Cruiser [4] 

7 minutes 

700K-1.0M 

6 clients, 1 server 

Crawler [7] 

30 minutes 

100K-200K 

1 pc 

Jovanovic[ 15 ] 

NA 

IK 

NA 

Saroiu [16] 

About 192 hours 

About 1.2M 

1 pc 


本文使用定义1~定义4提出的衡量方法，通过屏蔽 D - Crawler 系统的反馈功能模拟传统的拓扑爬行器，分 
析拓扑爬行器测量结果的准确性和完整性.图3显示了使用反馈功能和不使用反馈功能时，系统获取的拓扑数 
据完整性和准确性的比较.从图中可以看出 :使用 反馈功能后，系统具有较好的节点信息获取速度，能够在短时 
间内获得较高的完整性指数&同时，形变指数濟卩稳定性指数 S 比较分析 显示: D - Crawler 系统获取的拓扑数据具 
有更好的准确性，数据稳定. 

通过对上百个 Gnutella 网络拓扑快照数据的分析,本文随机选取3组拓扑快照，观察到的节点数、边数和网 
络状态等统计信息见表2.在此基础上，进一步对这3组测量实例的拓扑特性进行分析. 


Table 2 The overall information of Gnutella snapshots 
表 2 Gnutella 网络拓扑数据概要信息 



2005-11-25 

2005-12-10 

2005-12-20 

Average 

Total 

1 758 761 

1 729 613 

1 727 945 

1 738 773 

Utral peers 

463 885 

466 810 

465 959 

465 551 

Utral peers (%) 

26.38 

26.99 

26.97 

26.78 

Leaf peers 

1 294 876 

1 262 803 

1 261 986 

1 273 221 

Leaf peers (%) 

73.62 

73.01 

73.03 

73.22 

Successful connections 

73 941 

71 842 

71 374 

72 385 

Successful connections (%) 

58.86 

60.07 

58.92 

59.28 

Ave. degree of utral peers 

74.01 

74.02 

74.28 

74.10 

Ave. degree of leaf peers 

1.38 

1.38 

1.38 

1.38 




System without feedback 


1.0 

0.8 

0.6 to 

0.4 

0.2 

0.0 


System with feedback 



1 2 3 4 5 6 
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1.2 1 -x System without feedback function 
* System with feedback function 
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Fig .3 Topology accuracy and completeness of the systems with and without feedback 

图 3 使用反馈功能和不使用反馈功能系统获取的拓扑数据准确性和完整性对比 

3节点度分布特征 

节点的度分布特征能够反映 Gnutella 网络的拓扑特性，同时可以用于观察 Gnutella 网络拓扑特性随时间推 
移的对比分析.本节从度等级分布和度频率密度分布两个侧面分析 Gnutella 网络的度分布特性. 

3.1 度等级分布 (degree-rank distribution ) 特征 

Gnutella 网络分为上/下两层节点(见第2节)，各层中的节点实现的功能、采取的连边策略都不相同,需要分 
别考察上层节点之间的度等级分布、叶子节点的度等级分布以及两层之间的度等级分布.图4显示了这3种度 
等级分布特征和拟合情况(两个坐标轴均为对数坐标).从图中可以看出:(1) Gnutella 网络中上层节点的度 (ultra 
to ultra peers ) 与其降序序列中的等级之间分二段符合幂律分布，各段的相关系数绝对值 ACC(absolute 
correlation coefficient value ) 都在 0.944 以上; (2) 网络中 Ultra 节点对叶节点度数 (ultra to leaf peers ) 与其降序序 
列中的等级之间分两段符合幂律分布，各段的相关系数绝对值 ACC 均在 0.915 以上; (3_)叶节点连接的 Ultra 节 
点度 (leaf to ultra peers ) 与其降序序列中的等级之间分二段符合幂律分布，但是只有中间一段拟合得较好 
( ACC =0.97437), 两端的相关系数绝对值 ACC 均小于 0.87. 

图4的叶节点度等级分布 (leaf to ultra peers ) 显示，排名前100的节点度数均在1 000以上，根据 Gnutella 协议 
对叶子节点的定义，作为一般用途的叶子身份客户端，其连接的超级节点数目较少.经过单节点身份确认，图中 
出现度数大于1 000的叶子节点,其主要原因是:(1) Gnutella 网络由于其协议开放的特性，成为非结构化 P 2 P 网络 
研究的天然测试床,这些超大度数的叶子节点是 P 2 P 网络中实验用途的监测 节点; (2) Gnutella 网络的动态特性 
使得叶子节点上/下线频繁，出现网络拓扑的时间堆叠现象.以往的研究工作表明+ 7] ，可以通过缩短爬行器的爬 
行时间来减少网络拓扑的数据变形.在分析网络动力特性时，应该忽略这些测试节点. 

另外，测量结果显示，叶子节点连接 Ultra 节点度中，度数不大于2的节点比例介于82.17%~84.31%之间，这 
与表2中叶节点的平均度数统计结果相一致.而上层节点中,度数在30〜100之间的节点所占比例约为62%.结合 
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Fig . 4 The degree-rank power law fitness of the measured topology graphs (in log-log plot ) 

图 4 快照拓扑图的 Degree - Rank 幂律拟合(对数坐标） 

3.2 度的频率分布 (frequency-degree distribution ) 特征 

刻画 Gnutella 网络拓扑度频率分布特性，需要分别研究上层节点、上层节点与叶子节点之间的度分布特性. 
为了观察 Gnutella 网络节点度分布符合哪种分布模型，本节考察节点度的概率密度分布(概率密度分布和频率 
分布曲线是平移的关系)，采用幂律分布、高斯 ( Gaussian ) 分布、双指数 (double exponential ) 分布和韦布尔 
( Weibull ) 分布.运用最小二乘原理，根据残差平方和来判断拟合程度，残差平方和越小，拟合程度越好.表3列出了 
4种分布的概率密度函数 PDF(probability distribution function ) 及其补累积分布函数 CCDF(complementary 
cumulative distribution function ). 

图 5 显示了 Gnutella 网络测量实例的上层节点度概率密度分布、上/下层之间节点度概率密度分布以及上 
述4类函数的拟合情况.图中数据显示:(1)叶节点连接父亲节点 (leaf to ultra peers ) 的度概率分布具有较强的幂 
律特性，在对数坐标下，从绝对相关系数 ACC 来看，幂律拟合效果最好 ( ACC =0.9885), 韦布尔拟合 较差; (2) Ultra 
节点对叶节点 (ultra to leaf peers ) 度概率密度呈“钟型”分布，在线性坐标下,高斯分布能够达到较好的拟合效果 
( ACC =0.9368)， 双指数分布拟合次之.通过考察 Gnutella 网络中不同版本的客户端邻居维护策略，约占总数70% 


图4中上层节点度等级分布可以看出，上层节点度排列得比较平缓,说明上层节点的度分布得比较均匀.有关 
Gnutella 网路的节点度分布特性参见第 3.2 节.实验还发现，对不同的网络拓扑快照，在幂律成立的情况下，如果 
排名靠后的节点个数的比例增大(减少)，则等级指数的绝对值也会增大(减少)，等级指数变小(变大)，即等级指数 
R 反映了网络拓扑图节点度分布的变化情况. 

Ultra to leaf peers 
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Fig .5 The PDF fitness of the measured topology graphs 

图 5 快照拓扑图的度频率分布与拟合 

Ultra 节点承担 Gnutella 网络主要的消息路由功能，是整个网络的骨架，观察结果 (2) 和观察结果 (3) 与文献 
[5,6] 是一致的，说明 Gnutella 网络节点度分布得比较均匀，节点之间的地位比较“平等”，主要受客户端软件邻居 
维护策略的影响. 



We: 


F\x)-- 


的 Limewire 客户端软件有意限制了客户端连接的叶子节点总数，是呈现这种“钟型”分布的重要 因素; (3) 上层 
节点之间 (ultra to ultra peers ) 的度概率密度分布呈现“双峰正态分布”特性，在线性坐标下，使用两个高斯分布函 
数可以很好地拟合 ( ACC =0.9976), 双指数分布函数拟合得也比较好 0 CC = O .8623) .通过分析不同版本的度分布 
情况，发现这种“双峰正态分布”是由于 Limewire 软件客户端在32周围的正态分布与 Bearshare 软件客户端在 
25周围的正态分布叠加的结果. 


Table 3 Four PDFs and their CCDFs 

表 3 4 类概率密度函数及其补累积分布函数 


Function’s name 

PDFs 

CCDFs 


Power law 

f(x) = Cx a , C>0,a<-1 

F\x )=— 
a + 

a+l 

l X 

Gaussian 


F\x)~0y X 

7 °) 


Double exponential 


m-- 


2/? 


F'{X) = 




c >: v 0 


ibull 
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fxY- 1 I 

f x Y\ 
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1- _ f 

\ct) 
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Power law fitting 
C=0.8140, Alpha=-2.5S15 
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3.3 小结 

对等网络具有很强的动态特性，对拓扑数据的采集时间有较严格的要求.随着时间的延长，采集的数据会出 
现不同程度的变形，选择合适的采集时间有助于减少数据的畸变.节点的度等级分布特征和度频率分布特征说 
明， Gnutella 网络中上/下层网络的特性存在很大差异， Ultra 节点组成的上层网络度分布具有比较明显的正态分 
布特性，反映了整个上层网络拓扑结构比较均匀，节点之间拥有比较“平等”的度关系.然而， Leaf 节点连接 Ultra 
节点的网络拓扑结构是极不均勻的，大量节点具有较小的度，拥有很高度数的节点个数则很少.从而在分析 
Gnutella 网络拓扑结构时，一般意义的最大、最小以及平均度量能够刻画上层的 Ultra 节点之间组成的拓扑网 
络，但是对于叶节点组成的网络,使用幂律指数是一种较好的选择. 

测量分析结果显示， Gnutella 网络整体的度频率分布不满足幂律性质，这验证了文献 [5] 的结论.但是，叶节点 
的度频率分布、网络的度等级分布等却大不相同，叶节点的度频率分布有长尾 ( long - tailed ) 的特点，同时可以看 
到,拓扑的度等级分布是分段符合幂律性质的，这与 Internet 的度等级分布特性也不一样. 

4 小世界 (small world ) 特性 


对无向图 G 中的节点 V, 设其 度为九 其尤个邻接点之间实际的边 数为氏 ，最多有欠 v =« 尤 -1)/2 条边,则节点 v 
的聚集系数 C v 定义为 C v = 仏 图 G 的聚集系数 C 定义为所有节点的聚集系数的平均值，表示为 


根据定义，对所有的节点 v 有 ( KC /1. 特别地,1度节点的聚集系数为0,2度节点的聚集系数为 1( 两个邻居间 
有连接)或者为 0( 两个邻居之间没有连接).图 G 的聚集系数 C 满足 OSCSl .在朋友关系 ( friendship ) 网络中，聚集系 
数的直观意义为 : C V 反映了节点 v 的朋友之间也是朋友的程度(朋友之间联系紧密程度)， C 则衡量了整个朋友圈 
子的联系紧密程度 [11] . 

给定一个无向图 G , 其特征路径长度定义为网络中所有节点到其他节点最短路径长度的平均值 L , 它是一 
个从全局角度出发描述任意两点间距离的特征参数. 

同时拥有大聚集系数 (clustering coefficient ) 和小的平均距离这两个统计特征的网络,是具有小世界特性的 
网络.给定图 G , 可以通过比较 G 对应的随机图(具有相同的点数和边数,节点之间随机连接)的聚集系数 
CV a „< to m 和平均特征路径长度，定性地衡量图 G 的小世界特性,5卩:当图 G 的聚集系数(:远大于，并且图 
G 的平均特征路径长度£与[_^„相近时，则认为图 G 是具有小世界特性的. 

最近研究表明，多数生物网络、人类社会中的关系网络(例如演员之间的合作关系)、电力传输网 、 Internet 
上的 WWW 网络等都呈现小世界特性 . Jovanic 等人在文献 [15] 中指出,2000年，其测量的 Gnutella 网络也具有小 
世界特性.本节将再次验证在 Gnutella 网络节点数和边数都不断增长的情况下，网络呈现出小世界特性. 

图6显示了 3次 Gnutella 拓扑快照数据的上层节点之间最短路径概率密度分布情况，坐标均为线性坐标. 
由于 Gnutella 网络拓扑数据庞大(节点个数大于 1.5 M ), 计算整个网络的特征路径的时间和空间复杂度非常高， 
故对每一个拓扑快照数据，随机选择了 500个节点代表整个网络计算其特征路径长度.从图6可以看出，在 
Gnutella 网络拓扑图中，超过63.3%的节点之间的最短路径长度为4,最短路径长度分布服从正态分布规律.因此， 
可以使用所有节点的平均路径长度，即网络的特征路径长度来刻画 Gnutella 网络节点间最短路径特征. 

表4列出了 3次 Gnutella 网络快照的上层节点之间的聚集系数范围及平均特征路径长度 L s „„_ a ， 
同时也列出了与各次快照拓扑图对应的随机图的聚集系数范围，和特征路径长度的均值.此外，表中 
还包含了文献 [15] 于2000年测量的 Gnutella 网络数据和3类典型的具有小世界特性的网络拓扑图数据 [24] .从表 
中可以看出,3次测量 WGnutella 网络拓扑图满足亦即 Gnutella 网络具有小世 
界特性.另外还可以看出， Gnutella 网络的聚集系数比文献 [16] 的测量结果有所增长，这表明 Gnutella 网络在不断 
长大的同时，变得越来越紧密.这一现象不利于在 Gnutella 网络中使用洪泛消息路由机制，当洪泛消息的 7 TL =2 
时， Gnutella 网络比其对应的随机网络更容易产生冗余消息.如何建立具有较小的聚集系数的非结构化对等网络 
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是目前的一个热点问题. 



Fig . 6 The PDF fitness of the shortest path length 

图 6 快照拓扑图的最短路径分布与拟合 


Table 4 Small world characteristics 


表 4 小世界特性 


Name 

(- -Gnutella 

C random 

^Gnutella 

^-random 

Gnutella network 

0.03-0.05 

0.00013-0.00017 

3.68-4.36 

3.93-4.27 

Original Gnutella 1151 

0.02-0.03 

0.002 〜 0.006 

3.30-4.42 

3.66-5.54 

Movie actors 

0.79 

0.00027 

3.65 

2.99 

Power grid 

0.08 

0.005 

18.7 

12.4 

C. Elegans 

0.28 

0.05 

2.65 

2.25 


此外，文献 [25] 指出，对于采用 BA ( BarabSsi - Albert ) 模型生成的无尺度网络 (scale free network )， 其聚集系数 
将随着网络规模的扩大而减小.但是，通过本次测量结果与文献 [15] 测量结果的比较，随着 Gnutella 网络节点规 
模的扩大，其聚集系数也相应增大.这从另一个层面上验证了本文第3节中上层节点度分布不符合幂律特性的 
结论，也就是说, Gnutella 网络的发展遵循的不是 BA 模型描述的生长过程. 

5结论与展望 

测量对等网络是进一步分析 P 2 P 网络拓扑特性的基础.由于对等网络的多样性和高度的动态特性，在测量 
技术上存在很大困难.同时，测量对等网络受到 Internet 实际链路状态的影响，当 Internet 网络状态不稳定时，会导 
致测量的对等网络数据发生强烈振荡，使得测量的数据不能准确反映实际的对等网络拓扑结构. 

深入分析 P 2 P 网络拓扑结构特征有利于进一步认识对等网络，为对等网络模拟、安全事件控制、路由协议 
优化等奠定基础.本文的主要贡献是 :定义 了对等网络拓扑测量系统准确性、完整性衡量指标，设计实现了基于 
正反馈的分布式 Gnutella 拓扑爬行器一一 D - Crawler ; 进而分析了网络中各层节点拓扑的度等级分布、度频率 
分布等度量特征，同时分析验证了 Gnutella 网络中的小世界特性.测量分析 显示： 

(1) 基于正反馈机制的 D - Crawler 系统能够利用较少的硬件资源快速地获取 Gnutella 网络拓扑快照图，数 
据完整、 准确； 

(2) Ultra 之间的度等级分布符合三段幂律性质，度频率分布不服从幂律特性，呈“钟型” 分布； 

(3) Ultra 节点对叶节点的度等级分布符合两端幂律性质，度频率也呈“钟型” 分布； 

(4) 叶节点连接的 Ultra 节点数目的度等级分布比较不规则，呈三段幂律特性，其中，度数很大的叶节点主要 
是 Gnutella 网络中用于测试目的的节点，其度频率分布具有幂律 性质； 

(5) Gnutella 网络拓扑是具有小世界特性的，但不同于 Internet 拓扑，其发展不遵循 BA 模型的生长过程. 

对等网络测量和拓扑特性分析受到越来越多的关注，还有很多未知等待人们进一步去发现，相应的理论研 
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究亦有待深入.如何发现不同种类、规模的对等网络拓扑各自的特性和共同属性、如何选择合理的模型参数才 
能更好地刻画对等网络拓扑特性、 P 2 P 网络的动力学方面有什么特点、 P 2 P 网络面对不同攻击策略时表现出 
怎样的脆弱性等等.回答这些问题，还需要分析实际的对等网络测量数据，结合数据挖掘、复杂网络理论、代数 
图论、网络动力学原理以及社会经济因素等，总结归纳出对等网络的典型特征参数，建立对等网络拓扑数据库 
和拓扑模型库，形成一套对等网络拓扑特征分析理论，为对等网络的发展和网络安全服务. 
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基于 P 2 P 的网络恶意代码检测技术研究® 

辛毅②方滨兴云晓春胡振宇 

(哈尔滨工业大学计算机网络与信息安全技术研究中心哈尔滨 150001) 

摘要提出了一种基于 P 2 P 的大规模分布式网络恶意代码检测模型，描述了系统各个 
部分的功能与实现。该模型利用改进的 Rabin 指纹算法实现了对恶意代码特征码的自动 
提取。提出了基于子序列指纹的分布式存储的信息融合策略，并在此基础上给出了分布 
式架构下的恶意代码检测算法。这种方法适用于大规模网络中的恶意代码的检测。 
关键词恶意代码，蠕虫，特征提取，分布式哈希表 (DHT) ,分布式检测 


0引言 

恶意代码 （mal CO d e ) [1] 是指违背计算机信息系 
统用户的意愿，以破坏、窃取、恶意利用为目的的代 
码。恶意代码主要包括计算机病毒 （virus)、 蠕虫 
(worm ) 、木马程序 （trojan horse ) 、后门程序 （back¬ 
door) 、逻辑炸弹 （logic bomb) 、僵尸网络 （botnet) 等。 
当前具有自动传播能力的僵尸网络以及蠕虫等对 
Internet 构成了最大的威胁，其目的是造成大规模的 
感染，从而在感染机器上安装间谍软件、进行垃圾邮 
件中继、偷窃用户信息或者发动 DDoS 攻击，危害极 
大。因此快速、协同检测和遏制这种自动传播性的 
恶意代码十分必要。 

传统的恶意代码检测系统大都是单一网络集中 
处理式，各检测节点之间缺乏检测信息的共享，很难 
对快速恶意代码做出反应，因此逐渐出现了分布式 
检测系统。目前常见的分布式检测系统按组织结构 
的不同，可分为集中式、层次式、协作式以及移动代 
理4大类，这些检测体系结构的最大的不足就是存 
在单点失效、结构复杂、系统开销大等问题。文献 
[2] 的系统采用了对等 (P2P) 的架构，但是没有进行 
有效的优化，这样会带来高误报率、特征分发占用带 
宽等问题。本文在这种架构基础上提出了一种改进 
的基于 P2P 网络的大规模分布式网络恶意代码检测 
模型，相对于单点的集中式和传统的分布式具有非 
中心化、高扩展性、健壮性等特点，可以迅速准确提 
取特征码,实现各个节点之间的信息融合和全局性 
恶意代码预警。 


1基于 P 2 P 的网络恶意代码检测模型 

P2P 是一种分布式网络,这种网络的参与者既 
是资源(服务和内容)提供者 （server)， 又是资源获取 
#( client) ，且所有的节点都是平等的，不存在像 C/S 
模式中的服务器这样的专门提供服务的角色，所以 
如何高效、准确地实现网络资源的查找是对等网络 
理论研究中的核心问题。依据查找算法的现有研究 
成果，查找算法基本可归为4类，即以 Napster [3] .Bit- 
Torrent^ 4 ^ 为代表的集中式查找算法，以 Gnutella^ 、 
Freenet [6] 为代表的非结构化分布式查找算法，以 
FastTrack [7] 为代表的半分布式查找算法，以及以 
Tapestry [ 8] 、 Chord [9] 为代表的结构化分布式查找算 
法。 

与集中式查找算法、半分布式查找算法相比，分 
布式查找算法彻底消除了服务器的存在，更符合对 
等网络的需求。另外这种方法还克服了非结构化分 
布式查找算法使用洪泛机制查找导致网络可扩展性 
差的弊端,具有更好的发展潜力和研究价值且 Chord 
稳定性比较高。更重要的是其路径查找长度为 
logzTV, 即在一个 7V 节点的网络中，能够在最坏的情 
况下只需 0(l 0g2 A0 跳就能完成一次查找。因此，我 
们选取 Chord 作为系统的分布式哈希表 （distributed 
hash table, DHT) 协议，利用 Chord 的高稳定性,构-建 
一个健壮的功能覆盖网络 （overlay network ) ,利用 
Chord 的关键字快速查找，能够迅速有效地实现各节 
点之间的信息融合,实现每个节点进行全局性的恶 
意代码预警。基于 Chord 的分布式恶意代码检测系 
统的结构模型如图1所示。 


① 863计划 (2006 AA 01 Z 452) 和国家自然科学基金(_3033)资助项目。 
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图1基于 Chord 的分布式恶意代码检测系统模型 


系统中的每一个节点即为一个检测节点，设置 
于各自对应的边界网络的出口，以旁路方式监控所 
有进出该网络的网络流量，所有节点自组织构建成 
一个结构化的 P 2 P 网络。 

为了完成大规模网络恶意代码检测的任务，系 


统的处理流程如图2所示。各个单节点的工作包 
括： 

(1) 预处 理：对 网络报文进行 IP 分片重组和 
TCP 数据流还原。 

(2) 特征 检测： 采用误用检测的方法,利用预先 
提取特征库，对经过预处理的网络数据包进行多模 
匹配发现已知恶意代码。 

(3) 恶意代码特征 提取: 利用恶意代码特征提 
取的算法对恶意代码活动信息进行提取。 

(4) 信息融 合:各 节点之间利用 Chord 协议进行 
快速的信息融合,以求掌握全局信息。 

(5) 特征的判定和 分发: 根据融合的信息判别出 
准确的恶意代码特征,并将该特征分发至各个节点。 

(6) 遏制措 施:将 特征导入的入侵检测、防火墙 
等系统进行流量过滤或遏制。 



2恶意代码的检测与特征提取 

2.1 流 量预处理与特 征检测 

在基于 P 2 P 的分布式恶意代码检测系统中，各节 
点采用旁路侦听的方式监控各自对应的边界网络，需 
要对出入该网络的所有网络报文进行报文还原,即进 
行 IP 分片重组和 TCP 数据流还原，才能进一步进行 
检测和分析。目前网络流量不断增加,为了提高检测 
速度和防止丢包，采用了并行协议找 [1()] 进行协议还 
原。特征检测模块利用多模匹配的算法，根据特征库 
中的恶意代码对网络数据包进行内容级匹配。 

定义1:连续子序列。序列 Z = 

X n \ , 如果存在一个序列 K = ly 】，72, …， 7 ml ,且 : Ti 

+1 > y 2 -^/+ 2 » * * * » y m = ^j+m , » 中 ，_/ > 0， y + 爪 

^ n , 则称 y =丨 d ， y 2 , …，为 Z 的连续子序列。 

定义2:恶意代码的特征。如果恶意代码 W 在 
网络上传播，其传输的数据形成序列 Z = U ,^ 2) 
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■■■ , x „ 1 ,如果 Z 中存在一个子序列 F = I ji , j 2 » ''' » 
yj , 并且该序列在其他没有恶意代码 W 传播的网 
络流量中一定不存在，则称子序列 F 为恶意代码 W 
的一个特征码。 

在网络入侵检测系统 Snort 的基础上，我们提出 
了一种防恶意代码标识语言 （ anti-malcode markup 
language , AMML ) : 

Malcode(id = number;type = “ Backdoor ” I “ Bot ” I ''Trojan " I 
“ Virus ” I “ Hackertool ” I “ Worm ” 丨 other ; os = “ Windows ” I 
“ Linux ” I “ Unix ” I “ Mac ” I other ; 
name = string ; 
version = number ; 
size = number ; 

Port _ listen = on [ number ]; 

_ Content = string )_ 

其中 Content 域代表恶意代码的特征。基于 AMML , 
Backdoor . Win 32. bo . a 后门文件的特征可以用一条规 
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则描述，如下所示 ： 

virus ( id = B 00801; type = “ Backdoor ”; os = “ Win 32”; name 
=“ bo ”； version = 1; size = " 124928"; Port _ listen = on 
[31337]; content = 181 EC 0805000083 BC 240 C 05000000 
535657557 D 148 B 8424240500008 BAC 242005000050 E 99 
50500000 F 85800500008 BI )_ 

2.2 恶意代码特征的提取 

恶意代码特征码的提取,传统上都是用手工的 
手段来进行，这种方法无法满足快速检测和遏制恶 
意代码的需求。信息提取模块主要采用异常检测的 
方法对于未知的恶意代码进行检测。 

系统采用 Rabin 指纹 [11] 算法来实现恶意代码特 
征码提取。利用 Rabin 指纹算法提取恶意代码特征 
码的过程如下： 

假设当前数据报文的内容构成一个序列 ht 2 … 
t n , 对于子序列 ht 2 …< n ) ， 运用 Rabin 指纹 
算法其散列值(即指纹) 为： 

Fi = ( t { • // _1 + t 2 • + ■■• + )modM 

其中 /) 和 M 是预定义常量。对于下一个子序列 
hh … t 叫， 它的散列值可递推 得到： 

F 2 = (p • + t^ + i - t \ • 

为了加快运算，可以事先计算出所有的 ^ • /- 1 
的值并存人预先定义的表中。当计算出第一个子序 
列的散列值后，后续的子序列只需通过一次乘法运 
算、一次加法运算、一次减法运算和一次取模运算就 
可求出其散列值。根据求得的散列值将各个序列存 
于系统散列表中，并记录该子序列的的源地址、目的 
地址对。当某一个子序列的不同的源目地址超过设 
定阈值时，就发出恶意代码预警，而该子序列即可作 
为恶意代码的特征码。对于一个长度为《的序列， 
我们需要计算 n - /?+ 1次指纹，这将导致极高的 
CPU 利用率,我们采用以下措施进行 优化： 

(1) 对于 TCP 数据流，只处理客户端数据，忽略 
服务器端应答数据。恶意代码的攻击代码及其副本 
存在于 TCP 数据流中的客户端到服务器端数据，而 
目前网络中大部分流量都是服务器端应答数据，因 
此忽略服务器端应答数据在不影响对恶意代码的检 
测的前提下可以大大减小计算时间，同时也能减小 
恶意代码的误报率。 

(2) 对一个序列偏移一定长度后不再计算后续 
子序列。恶意代码的攻击代码基本上是不变的，在 
几个数据包内就可以完成，因此我们可以设置偏移 
量为一个 20 K 的长度，这样可以大大减少系统的开 
销。 
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(3) 而目前恶意代码基本上根据特定的漏洞进 
行攻击，因此其攻击渗透的报文的通信协议，目的端 
口基本上是固定的。因此，如果对于提取的特征码 
进行记录所对应目的端口，当同一个特征码所出现 
的不同目的端口数目超过一定数目时,我们就可以 
认为这是一个无效特征码。 

改进后的算法 如下： 

for each reassembled packet in trace 
for each substring S in packet 
if fingerprint of S in table 

if ( sip , dip ) of packet not recorded 
record ( sip , dip ) 
if destination port not recorded 
record ( sip , dip ) 
if destination port not recorded 
record destination port 
endif 

if num of destination port > threshold of port 
delete the current fingerprint 

return 

endif 

if num of distinct ( sip , dip ) > threshold of IP 
report 

endif 

endif 

else 

create new entry for fingerprint 
record ( sip , dip ) and destination port 

_endif_ 

2.3 节点之间的信息融合与报警 

传统的单点集中式处理的恶意代码检测技术中 
各点之间缺乏检测信息的共享，很难对恶意代码做 
出快速反应。特别是在恶意代码特征提取算法中， 
需要等到疑似特征超过设定的预警阈值时才能做出 
恶意代码警报，而在这段时间，对于类似 CodeRed 、 
Slammer 等快速恶意代码来说已经是为时已晚，而如 
果通过简单的下调阈值，则必然造成误报率 （false 
positive ) 的上升。因此必须通过各检测节点间的相 
互协作进行信息融合,才能有效地对快速恶意代码 
做出反应。 

在分布式恶意代码检测环境中，如果各个节点 
只是将最终提取的恶意代码特征码互相传播，互通 
有无,那么,对恶意代码的预警速度就没有本质的提 
高。由于我们采用了基于 Chonl W 协议的 P 2 P 的架 
构, Chord 协议的核心是提供了一种基于分布式哈希 
表的分布式查找算法。分布式哈希表是一个由广域 
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范围大量结点共同维护的巨大哈希表。哈希表被分 
割成不连续的块，每个节点被分配给一个属于自己 
的哈希块，并成为这个哈希块的管理者。也就是说, 
每个检测节点各自维护属于自己的一个哈希块，而 
哈希块中存储的是来自于其他节点的子序列。利用 
其分布式哈希表,能够实现资源的分布式存储，以及 
关键字的快速查询，因此，在实现恶意代码信息的快 
速融合方面具有巨大的优势。 Chord 协议的核心在 
于提供了一个快速的分布式哈希功能的计算，把关 
键字 ( keys ) 映射到负责存储它们的节点上去，算法 
的查找效率受到 Chord 路由表大小的制约。 

目前 Chori 协议规定每个节点的路由表最多包 
含 m 个路由表项,主要是为了避免增大路由表导致 
节点存储负荷的加大和网络动态变化时维护路由表 
消息数量的增多。虽然算法的查找路径长度是 
\ o ^ N 跳，但是路由的路径由起始节点与目标节点间 
的应用级路由跳组成，而不是由 IP 级路由跳组成， 
实际的路由效率是由端到端的路由时延来衡量的， 
因此 l 0 g 2 Af 跳仍然是一个很大的时间延迟。 

对此，本文将节点的路由表大小由 / n 个路由表 
项增加为 2 m 个表项，这样就可以保存当前 P 2 P 网络 
中的所有节点 ID 。 而这样的改进在本文提出的检 
测恶意代码的 P 2 P 网络的应用背景下是合理的，原 
因 如下： 

(1) 虽然将路由表大小由 m 个路由表项增加 
为 2 m 个表项后会将空间复杂度从 0( m ) 增加到0 
(2 m ) ，但是即使 m 达到20,整个路由表的表项数目 
为 2 M , 因此总共路由表的大小仅为 1 M , 而作为一个 
恶意代码检测的 P 2 P 网络，其节点数目是决不可能 
达到2 20 ,因此不存在存储负荷的问题。 

(2) 作为一个检测恶意代码的 P 2 P 网络，节点 
的加人和退出不会频繁发生，即整个网络动态性非 
常弱，因此网络动态变化导致维护路由表消息数量 
增多的现象不会频繁发生。 

因此，通过将路由表大小由 m 个路由表项增加 
为 2 m 个表项从而使得关键字的查找不用经过路由， 
而是直接在本地就可完成，即将查找路径长度从 
OUgAO 降为 0(1 )。 

如果能在利用 Rabin 指纹算法提取恶意代码特 
征的过程中，各个节点能够把相同的子序列（即疑似 
恶意代码特征码)汇总起来进行整体分析，那么预警 
速度无疑会大大提高。而利用改进后的 Choni 协 
议，为子序列的汇总分析提供了非常有效的解决途 
径。由此，我们提出了一个基于子序列指纹分布式 
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存储的信息融合策略。 

如图3所示，在基于 Chord 协议的分布式恶意 
代码检测系统中，每个检测节点作为 Chord 环中的 
一个节点，具有自己的 ID 。 每个节点在利用 Rabin 
指纹算法提取出子序列后，利用 Chon ! 协议中的一 
致性哈希 (consistent hashing ) 算法将该子序列的指纹 
映射为一个关键字 key ， 然后利用 Chord 算法就可找 
出关键字 key 所对应的节点 ID (负责存储该子序列 
的节点 ） ，就可以将由当前节点地址、子序列的指纹、 
源目地址对组成的三元组发送到该节点，并且一致 
性哈希保证同一个关键字会映射到同一个节点，这 
样就可以将所有节点提取出的相同的子序列的指纹 
存储到一个节点，这样就实现了子序列指纹的分布 
式存储，而负责存储的这一节点就掌握了所有节点 
所监控的网络中该子序列的流行情况，当某一子序 
列的指纹的不同目的地址数目超过阈值时就可以发 
出恶意代码预警。 



在恶意代码预警时，由于我们采用的是基于子 
序列指纹的分布式存储，而不是直接把子序列进行 
分布式存储，因此预警节点需要向指纹的源节点发 
送预警消息，由该指纹的源节点根据指纹找出其对 
应的子序列，然后将该子序列作为恶意代码特征码 
发送给所有节点。我们设定并不是将每个指纹都发 
送到负责存储该子序列的节点，而是在该指纹所对 
应的不同 IP 地址到达一定数量之后再作出发送动 
作，这样可以减少网络的子序列传输对网络带宽的 
占用 ，如: 特征子序列的长度为110字节的话，其指 
纹只有8个字节，这样可以大大减少在分发特征产 
生的流量。 

3实验分析与比较 

3.1 系统性能 

我们利用 tcpdump 软件于2007年6月2日在哈 
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服务器应答数据高达 3509 MB , 而客户端应答数 
据仅为 698 MB , 而单个连接客户端发送的不超过 
20 K 的数据仅为 352 MB , 即检测程序所需要处理的 
数据只占整个 TCP 数据量的8.4%。我们运行检测 
程序，并以 200 Mbps 的流量回放 30 GB 的真实流量， 
不采取减负措施， CPU 利用率高达75%，而采用了 
减负措施后 CPU 利用率仅为33%,可见通过减负措 
施后极大的降低了 CPU 利用率，减轻了系统负载。 
3.2 端口阈值的影响与特征长度的选取 

利用虚拟机构建了一个封闭的网络，在网络内 
主机上装上 SQL Server 2000 数据库和 IIS web 4.0 服 
务器，并释放 Slammer、CodeRed II 及 Agobot ，感染主 
机通过 IP 扫描后向其他漏洞主机发送感染数据包， 
采用 tcpdump 捕获大量的感染数据包保存为本地文 
件，作为测试样本。在检测主机上回放这些数据包, 
同时我们回放在哈工大出口的 30 GB 真实流量作为 
背景流量。我们通过调整子序列长度卩和源地址阈 
值 threshold 的值进行重复检测，结果如图5所 7 K 。 
在未设置目的端口阈值时，当子序列长度从100开 
始，不同阈值所对应的误报数相差无几，并且子序列 
长度一直增加到190字节，不同阈值对应的误报数 
才降为0。 

„xl0" 
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图4流量分析结果 
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图 6 不同目的端口阈值和子序列长度对应的误报数 

对比图5和图6可以看出，设定了端口阈值后， 
误报数大大减小。误报数随着目的端口阈值的减小 
而相应地减小，并且子序列长度增加到110字节后 
没有误报产生。因此，通过设置目的端口阈值，可以 
更好地过滤误报特征码，并减小恶意代码特征码的 
长度，使恶意代码特征码具有较好的灵敏性。 

3.3 模拟试验与分析 

采用了文献 [12] 提出的 Internet 模型，该模型将 
整个 Internet 划分为？ i 个节点集合 (host group ) ,即最 
小的拓扑单元为一个节点集合，可将其看成为一个 
校园网，适合采用简单传播模型,即把主机分为易感 
染 ( susceptible ) 和已感染 （ infectious ) 两种状态，并假 
定一台主机一旦被感染就始终保持被感染的状态。 
我们模仿蠕虫 CodeRedI - v 2 的传播和检测过程。实 
验设定易感主机数量为400000台，整个模型中共有 
500个校园网络,每个校园网络被分配12个 C 类网 
络的地址块。 CodeRedI - V 2 蠕虫采用的是随机扫描 
策略，我们将扫描频率设定为每秒10次，并设定感 
染主机的初始数量为5。 

图7是单点检测与分布式检测的对比图，其中 
横坐标代表预警阈值，纵坐标代表发出蠕虫预警时 
的感染主机数，我们设定的检测节点个数为50。可 
以发现，分布式检测能够比单点检测更快地发现蠕 
虫的传播*同时单点检测时由于缺乏信息融合，感 
染主机数随着阈值的增大而迅速升高，而在分布式 
检测系统中，感染主机数随着阈值的增大上升平缓。 
然后，我们设定预警阈值为500的情况下调整检测 
节点的个数，运行结果如图8所示。单点检测由于 
没有信息融合，其预警时的感染主机数自然相差不 
大，而在分布式检测系统中，预警时的感染主机数随 
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尔滨工业大学网络出口进行流量采集(采集了 30 GB 我们设定源地址的阈值为50,并分别设置目的 

的真实流量），对其进行分析的结果如图4所示。 端口阈值为10、20、30和40,检测结果见图6。 
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图8检测节点数置的对比 
3.4 相关工作比较 

Woimshield ^ 2 -' 采用标准的 Rabin 指纹算法的代 
价过大，若不采用任何的优化策略，则 CPU 占用过 
大，在高速网络内检测中很难保证效率。从图5和 
图6的对比可以看出，在没有设置目的端口优化会 
带来大量的误报。误报量过大，其系统可用 性差; 另 
一方面，误报特征通过网络分发到其余检测节点时 
会带来大量无用流量，会严重影响系统的性能。另 
夕卜, Wormshield 采用的是标准的 Chord 算法，查找路 
由的代价过大，因此无法做到实时的反应。 
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图7单点检测和分布式检测的对比 
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着检测节点个数的增大而下降。因此，在分布式检 
测系统中,检测节点的个数越多,对尽早做出恶意代 
码预警就越有利。 
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4 结论 

恶意代码传播迅速，亟需稳定、快速的检测方 
法。本文提岀了一种基于对等网络 DHT 协议的分 
布式恶意代码检测系统模型，采用了多种优化措施， 
以实现在大规模网络中对恶意代码传播的快速检 
测。通过实验证明，利用基于 DHT 协议的分布式恶 
意代码检测系统，在恶意代码传播的初期就能迅速 
做出预警,并能有效地提取恶意代码的特征码，以实 
现对恶意代码传播的迅速预防。 
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Research on malcode detection based on P2P 

Xin Yi , Fang Binxing , Yun Xiaochun , Hun Zhenyu 
(Research Center of Computer Network and Information Security Technology , 

Haitin Institute of Technology , Harbin 150001) 

Abstract 

This paper proposes a distributed malcode detection model based on distributed hash table ( DHT ) protocol for P 2 P 
networks and describes the functions and implementation of each part . The model uses an improved Rabin fingerprint al ¬ 
gorithm to automatically extract malcode signatures . It also proposes the strategy of information communion based on dis ¬ 
tributed storing of the fingerprints of substring , and on the basis of this , presents the algorithm of malcode detection under 
a distributed system . It is shown that this model can be applied to malcode detection in large scale networks . 

Key words ： malcode , worm , signature extraction , distributed hash table ( DHT ), distributed detection 
— 1034 — 


一 ■ —分布式检测 
—单点检测 


8 7 6 5 4 3 



( C ) 1994-20 19 China Academic Journal Electronic Publishing House . All rights reserved , http :// www . cnki.net 






2004 □ 9D 


□ □□□□□□□ 

JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT 


Vol 41, No. 9 
Sep 2004 


□□□□□□□□□□□□□□□□□ 

陈训逊方滨兴李蕾 

(□□□□□□□□□□□□□□□□□□□ □□□ 150001) 

(cxx ©mail nisac . gov . cn ) 

□ □ □□□□□□□□□□□□□□□□□□□□□□□，□□□□□□□□□□□□□(□□□□□□□□□ 
□ )、□□□□□□□□□□□□□□□□，□□□□□□□□□□、□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□，□□□□□□□□□□□，□□□□□□□□□□□□□□□□ ( oc 48 □ □ □ 

□ □)□□□□□□□□□□□□□□□□□. □□□ 16 □□□□□□□，□□□□□□□□ OC 48 D □ □□□□□， 

□ □□□□□□□□□□□□□□□□• 

□ □□□□□ TP 393. 08 

Architecture of Intrusion Detection for High-S^eed Networks 


CHEN XurrXun , FANG Bin - Xing , and LI lei 

(PACT Laboratory，College of Computer Science^ Harbin Institute of Technology，Harbin 150001) 


Abstract The architecture of intrusion detection for high-speed networks environment is put forward The 
architecture effectively solves the performance problems of network security analysis in multi-line and large 
bandwidth backbone networks by integrating raw signal capture ( i . e . packets capture and stream reassem ¬ 
ble ), aggression and balance , and efficient data stream engine . The architecture has clear hierarchy , high 
scalability and flexibility and it can fit complex network environment and many types of interfaces from low 
speed access networks to high speed backbone networks (l e . multi - OC 48 c lines ). The ID system based on 
such architecture can achieve line-speed performance in eight -0 C 48 c lines network environment when six ¬ 
teen data streams are configured，which exceeds the best formally claimed performance report of nowadays 
ID sy stems . 

Key words IDS ; high-speed networks ； signal coupling ； aggressive-balancing hash ； data stream ； sensor 


□ □□□□□ (ids)D □□□□□□□□□□ 
□ □□□□□□□□□□□□□. □□□□□□□ 
□ □、□□□□□、□□□□□、□□□□□□□□ 

□ □□□□□□□□□□□ 2. 5 Gb P s □ □ □ □ □ 


□ □□□□□，IDS □□□□□□□□□□□□□ 

□ □□□□□□□，□□ IDS □□□□□□□□□ 

□□□□□□□□□□□□□□□□.□□□□□ 

□ □□□□□□□ Gartner □□□□□□，2005 □ 

□ IDS □ □ □ □ □ 111 , □ □ 4 □□口 □□口 □口 
IDS □ 600 M bps □□□□□□□□□□□. □ □ □ 

□ □□□□□□□□□□□□ IDS □□□□□□ 

n n [ 2 ] 


□ □ □ □ ： 2003-07^15 ； □ □ □ □ ： 2003-10-17 

□ (2002AA147020) 

? 1994-2018 China Academic Journal Electronic Publishing House . All rights reserved , http :// www . cnki.net 
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□ □□□□□□□ 


2i 


Sekar □ □□□□□□□□□ 500Mbps □□□□□ 

□ □□ IDS [ ^，n □□□□□□□□ □ ； US □ Giga (□□□□□□□□ 

Sentry □ Cisco □□□□□□□□□ 50Kpps □□ □□□□□□□□)□□□□□□□□□□• 

□ □□. □□□□□□□□□□□□□□□□□ □□□□〃□□□□□□□□□□□□□□，□□ 

Christopher Krnegel 口 □□□□□□□□□□□□ mX«[][][][][][][]. □□□□□□□□□□□ 

□ □□□□□□ [4] . □□□□□□□□□□□□□ □□□□□□□□□□□□□□□□□□，□□□ 

(network tap)、[] □ □ □ □ □ □ (traffic scatterer )、 □□□□□□□，□□□□□□□□. 

□ □(”《□)□□□□□ (traffic slicers) So, ■■； □□□□□□□□□□□□□□□□□□□□ 

□ □ □ □ (switch )<□ □(«□)□□□□□ □□□□，□□□□□□□□□□□□□□□□□ 

□ (stream reassemblers) Ro, ■■■, Rn 1 [] [] [] [] (p □□□□□□□□□□□□□□□，□□□□□□ 

□ )□□□□□□ (intrusion detection sensors) 0 6 

□ □□□□. Tap □□□□□□□□□ △□□□□ □□□□□□□□□□□□□□□，□□□□□□ 

□ □□□□□□□□□□ ^=</o,/b •..，/,>□□ 

□□□□□□，□□□□□□□□□□□□FUQ □□□□□□□□□□□□□□□□□□□□□□ 

□ «□□□□ F J: (Kj<m. □ □ □ F □ □ □ 

□ □(□□□□□)■□□□□□ //□□□□□□□ □，□□□□□□□、□□□□□□□□□□□□， 

□□□□□□□□□□ 

_ 1 UUUUU ， UU1UU: 

□ □□□□□ round-robin □□□ -?"□□□□□ m 



□ 1 □□□□□□□□□□□□□□ 


□ □□□□□□□ □)□□□□□□□>□ □)<□□□ ( GE , OC 48 Q □□)□□□□□□□□ 

□ □□□□□□、□□(«□)□□□□□、□□(« □ □ (10 GE , OC 192 Q □□)□□. □□，□□□□ 

□ )、□□□□(□□)□□□□□□□□.□□□□ □□□□□□□□□□□□□□□□□□□，□□ 

□□□□□□□□□□□□□□□□□. □□□□□□□□□□□□□□□□□□□□□□ 

□ □ □. 

2 □□□□□□□ □□□□□□□□□□□□□□□□□， □口 

□ □□□□□ 4HUBQ □、□□□□□□ 

□ □□□□□□□□□□□□□□□□□，□ □□、□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□>hub□□□□□□. □□□ □. □□□□□□□□□□□/□□□□□□，□□ 

□ □□□□□□□□□□□□□□□□□□，□□ 

□ □□□□□□□□■ □□□□□□□□□□□□ □ □ : 

□ □，□□□□□□□□□□□□□□□□(□□ ⑴ FE/Ethernet □□(□□)□□□□□□ 

□ R fltfl ^vw.cnkV ifl 









9 口 


□ □□□：□□□□□□□□□□□□□□□□□ 
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□ □ □ □ (fast Ethernet ) D □□□□□□■ □□□□ 

□ □□□□□□□□□□□□□，□□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □，□□□□ HUB □□□□□□□□□□□□ 

□ □□□□□□□□□□□□，□□□□□□□□ 
□ □□□□□□□□□□□□□□□□□，□□□ 

0 Ethernet/FE - Ethernet/FE f^\ 

< - -► Ethernet/FE Hub/Switch < ■— ■ —— fl 网 j 

E _ tteirct/FE j 共享口/监听口 

监听数据 

□ 2 FE / Ethernet □□(□□)□□□□□□ 


□ □□□□□. □□□□□□□□□□□□□□□ 

□ □，□□□□ GEDDQ FE □□□□□，□□□ 

□ □□□□(□□ 2 Q □). 

(2) □ □ WANQ □□□□□□□ 

□3Q□□□□□□□□3DDDDDDDD 

□ □□□，□□□□ 3DDDDDDDDDDDD 

□ □□□，□□□□□□□□ wan □□□□，□□ 

□ □□;□□□□□□□□□□□□□ 3DDD，□ 
□□□□□□□□□□□□，□□□□□□□□□ 
□，□□□□□ WAN □□.□□□□□□ DDN , 
El ， E 3 □□□□□□□□□□□(□ □ 3 □ □). 



监听数据 


□ 3 □ □ WAN □□□□□□□□ 


(3) □□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□ 
□ □□，□□□□□□□□□□□□□□□□□□ 
□ □□，□□□□□□□，□□□□，□□□□□□ 

□ □間 ，□□□□，□□□□□□□□□□□□. 

□ □ □ GE , 10/100 BASE-FX □□□□(□□ 4口 

□ )• 



监听数据 

□ 4 □□□□□□□□□□ 


(4) □□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□，□□□□□□□□□□□，□ 
□□□□□□□□□□□□□□.□□□□□□□ 
□ □□□□□(□□ 5D □). 



监听数据 

□ 5 □□□□□□□□ 

?1 994-201 8 China Academic Journal Electronic 


3 □□□□□□□□ 

□□□□□□□□□□□□□□□□□□□ 
- □ □□□□□□□□(□ Pos» ATM, El □ )0 

□ □□□□□□□(□ FE, GEQ )，□□□□□□ 

□ □□□□□□□□□□□□□□□□. □□□□ 
□ □□□□□，□□□□□□□□□□□□□□□ 

□ □□(□ FE, &£□)□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□，□□□□.□ 
□ □□□□□□□□□□□□□□□□□□，□□ 
□ □□□□□□□，□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□. 

⑴ □□□□□□□□ 

□ □□□□□ fe/ge 

□ □□□□□□□□□□□□ VLAN, □ □ □ □ □ 

□ □ □ (GE)，□ □ SPAN □□□□□□□□□□□ 

□□□□□□□□□□□□□□□.□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 

□ □ mac □□□□□□□□□，□□□□□□□ 

□ □□□□□□ VLAN □□□□□□□□□□□ 

□ □□，□□□□□□□□□□□□，□□□□□ 

□■□□□□□□□□□□□□□□□□□□□a 

□ □□□□□□□(□□ 6 D □). 

( 2 ) □□□□□□□□□□□□□□ 
n d,.d p n QrOstSvQcP ^ ■口从从 







监测线路 1 监测线路 2 … 监测线路 n 



□ 6 □□□□□□□□ 

□ □□□，□□□□□□，□□□□□□□□□□， 
□ □□□□□□□□□□□□□. □□□□□□ 
□，□□□□□□□ !?□□□□□□，□□□□□ 

□ □□□□□□□□□□□□□□，□□□□□□ 
□ □□□□□□，□□□□□□□□□□□□，□□ 
□ □□□，□□□□□□□□□□□□□□□□□ 
□ □□□□□□□，□□□□□□□□□□□□□. 
IPD □□□□□□□□□□□□□□□□□，□□ 

□ □□□□□□，□□□□□□□□□□□□□. 
□ □□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□. □□□□□□□□□□□(□ 

□ □□□□ 4-7 □□□□□ 4-7 □□□□□□□□ 

□ 7間），□□□□□ 

(□ □ □ Sip ，□ □ □ □ Dip , □ □ □ 卽， □ □ □ □ 
Dp )[\ □□□□□□□ Hi Sip ， Dip ， Sp ， Dp \ Hip ) 

□ □□□□□： 

HiSip . Dip ， Sp ， Dp ) = HiDip ， Sip , Dp , Sp ). 

□ □ «□□□□□，□□□□□□□□□□ 
/?，□□□□□ 〜 

Tn = H ( Sip ^ Dip ， Sp ， Dp ) mod w +1. 
//(;?)/«□□□□□□□□□，□□□□□， 
□ □□□□□□□□□□□，□□□□□□□□□ 
□ !?□□□□□□□□□□□(□□□□□□□□ 

□ >□□□□□□□□)，TCP □□□□□□□□□ 

□，□□□□□□□□□□(□□□□□□□□□□ 

□ □□□□□).□□□□□□□□□ 30000 
□□□□□□□□□□□□□□□□□□□□□□ 

监测线路 1 监测线路 2 … 监测线路 


□ □□□□□□□□□□□□□□□□□ 8、0 
9DD. 

4500 
4000 
3500 
3000 
| 2500 
2000 
1500 
1000 
500 
0 

12 3456789 10 

时间 /10 s 

□ 8 □□□□□□□□□□□□ 

140000 
120000 
IOOOOO 
良 80000 
^ 60000 
40000 
20000 
0 

1 2 3 4 6 6 7 8 9 10 1 II213U1516 

节点 

□ 9 □□ IP □□□□□□□ 

4 □□□□□ 

□ □□□□□□□□□□□□□□□□、□□、 

□ □□□□□□□□，□□□□ cpud □ □ □ 

□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□，□□□□□□□□□□□□□，□□□ 
□□□□□□□□□□□□□□□，□□□□□□ 
□□□□□□□□□□□□□□□□□□□.□□ 

□ □□□□□□□□ fed ge ，□□□□□□□□ 

□ □□□□□□□□□□□. □□□□□□□□□ 

□ hub □□□□□□□□□□□□□□□□□□ 

□ □□□，□□□□□□□□□□□□□□，□□□ 

□□□□□□□□□□□□□□□□□，□□□□ 

□□□□□□□□□□□□□□□□□□□□□□ 
□ □，□□□□□□□□□□□□，□□□□□□ 
口 ， □□□□□□□□□□□□□□□. 

5 □ □ 



分流输出 


分流输出 ri 分流输出 F2 ... 倾输出 r« IDS 

□、□□□□□□□□□□，□□□□□□□□□□ 

?1994-iol8 Sfictronic Publish0fl-0iQeD/g ： 0#ts Qliiifl 0xDvQ：*Oll 





□ □□□□□□□ 


s * 自 






9 口 


□ □□□：□□□□□□□□□□□□□□□□□ 
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□ □□□□□. 

5 1 □ □ □ □ □ 

□ □□□□□□□□ 2Q □ □ □ ：□ IQ □ □ 

□□□□□□□□□□□□□□□□□，□□□□ 

□ □□□□□□，□□□□□□□□;□ 2D □ □ □ 

□ □，□□□□□ —IP □ □ —IP □ □ —TCP □ □ 

□ □□□□□□□. 

□ □□□□□□□□□□□□□□ 3D □ □： 

□!□□□□□□□□□□□□□□□□□□□， 

□ 口 Linux □口 libpcap 0 、 Windows □口 Winsock2 

□ □□□□□□□□□□、□□ DMA □ □ □ □ □ 

□□□□□□□□□□□□□□□□□□□□，□ 

□ □□□□□□□□□ (2GHzCPU □ □ □ Linux □ 

□ □ 50Kpps □□□□□，FreeBSD □□□□□□ 

□ )□□□□□□□□□□(□ Linux )□ □ □ □ □ 

□ □□□□□□□□□□，□□□□□□□□□□ 
□ □□□□□□□□□□□□□□. 

□ □□□□□□□，□□□□□□□□□□□□□ 
□ □□□□□□□□□□□，□□□□□□□(□ 
IK □□□□)□ □□□□□□□□. □□□□□□ 

□ □□□□□□□，□□□□□□□□□□□□□ 

□ □，□ !□□□□□□□ (2GHzCPU D □ □ Lin¬ 
ux □□□□□□□□ lOOKpps □□□□□□). 

□ 3D 

□，□□□□□□□□□□□□□□□□□□ DMA 

□ □□□□□□□□□□□□□□□□□，□□□ 

□ □□□□□□□□□□ 0(Q □□□□□□ ). □ 

□ □□□□□□□□□□，□□□□□□□□□□ 
□ □□，□□□□□□□□□□□□□□□□•□□ 
□□□□□□□□□□□，□□□□□□□□□□ 

□ □□□□□□□，□□□□□□□□□ (2GH2CPU 

□ □ □ Linux □□□□□□□□ 600Kpps □ □ □ □ 

□ □，□□□□□□□□□□□□□□□□□□□ 
□ □□，□□□□□□□□□□□□□□□□). 

□ □□□□□□□□□ TCP □□□□□□ □ 
□，□□□□□□□□□ (FSA ) 口 □□□□□□. 

□ □□□□□□□□□□□ IDS □□□□□□□ 

□ ， □ Mark Handley □□□□□□□□□□□□ 

□ □□□□□□ DoS □[ 弋 □□，□□□□□□□ 

□ □□□□□□□. □□□□□□□□□□ 

(口 MahoneyQ □ □ □ □ PHAD [”、 □ □□□[’□ 


5.2 □ □ □ □ 

□ □□□□□□□□□□□□□□□□□□□ 
□ □□□、□□□□□□、□□、□□□□□□□□ 
□ □□□□□□□□□□，□□□□□□□□□□ 
□ □□□□□□□□□□□□□，□□□□□□□ 
□ □□□□□□□□□□. □□□□□□□□□□ 

□ CPU □□□□□□，□□□ CPU □□□□□□ 

□□□■□□□□□□□□□□□□□□□□□a 

□ □□□□□□□，□□□□□□□□□□□□□ 
□ □□□□□，□□□□□□□□□□，□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□ 
□ □□□□□□，□□□□□□. 

□ □□□□□□□□□□□□□□□□□□ 

□ ， □ HTTP , SMTP , POP 3, BBS □，□□□□□ □ 

□ □□□□□□，□□□□□□□□□□□□□□ 

□ HTTPD □ □ □ □ □ HTTPD □ □ □ □ □ 
( URL , HOST , CONTENT-TYPE □)，□□□□□ 
HTTP BODY □□□□□□□□□□□□□，□□ 
SMTPD □□□□□□□□、□□□、□□、□□、□ 

□ □□□，□□□□□□□、□□□□□□□□□□ 
□ □ □ □. 

□ □□□□□，□□□□□□□□□□□□□ 

□ □□□□□ (FSA )□ □ □ □ □ □ D [7 ^. □□□ 

□ □□□□□□□□□□□□□□□，□□□□□ 
□□□□□□□□□，□□□□□□□□□□□□ 
( MP ^ FSA)，D □□□□□□□□□□□□□□□， 

□ □□□□□□□□□□□□□□□□□□□□ 

□，□□□□□□□□□□□□□□ ( MP - EFSA)Q 

□ □ □. 

□ □□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□□□□ ( lightweight ). 

6 □□□□ 

□ □□□□□□□□□□•□□ IDS □ □ □ □ 

□ □□□□□□，□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□，□□□□□□ 
□ □□□，□□□□□□□□□□□□□□□.□ 

□ □□□□□□□□□□□□□，□□□□□□□ 

□ □，□□□□□ ddos □□□□，□□□□□□ 
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□ □，□□□□□□□□□□□，□□□□□□□□ 
□□□□□□□□□□□，□□□□□□□□□□ 
□ □□□□. □□，□□□□□□□□□□□□□ 
□ □□，□□□□□□□、□□□□□□□□□□□ 
□ □□□□□□□. 

□ □□□□□□□□□□□ IPG □ □ □ 

ip □間、 □□ ip □□□)、□□□□(□□□□ □ 
□ □、□□□□□□□)□□□□，□□□□□□□ 

□ □□□□□□□□□□□□□.□□□□□□ 3 

□ □ — □ □□□□□□□. 

□ □ IP □ □ □ □ IDS □□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□(□□□、□ 

□ □□□□)□□□□，□□□□□□□□□□□ 

(access control list，ACDQ □□□□□□□□□□ 

□ IPDD □ DD 181 . □□□□□□□ IPDD □ □ 

□ □，□□□□□□□□□□□ acl □□□□□□ 

□ □□□□□□□，□□，□□□□□□□□□□□ 
□ □□□□. □□□□□□，□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□， 

□ □ □ (IPG □ □)，□□□□□□，□□□□，□□□ 

□□□□□□□□□□□□□□□，□□□□□. 

□ □ ip □□□ 181 □□□□□□□□□□□□ 

□ □ □ □ ( bgp , ospf □)□□□□□□□□□□ 

□ □□，□□□□□□ ip □□□□□□□□□□□ 

□ □□□，□□□□□□□□、□□□，□□□□□ 

□ □□□□□□□□□ (RAM )□□□□□□，□□ 

□ □，□□□□□. □□□□□□□□□□□□□ 

□ □□□□□□□□□□□□□□□□□ (RST, 
FIN ) 口 

□ □□□□□、□□□(□□□)，□□□□□□□□ 

□ □□□□□□. □□□□□□□□□□□□□□ 

□ □，□□□□□□□□□□□□，□□ DoS □ □. 

□□□□□□□□□□□□□□□，□□□□□ 

□ □□□(□□□□□□ 、 □□□ 、 □ 間 、□□□□、 

□ □□□□□□□□□□□□，□□□□、□□□. 

7 □□□□ 

□ □□□ IDS □□，□□□□□□、□□□□ 


□ □□□□，□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□□□□，□□□□□ 

□ □□□□□□□□□□□□□□□□□□□，□ 

□ □ □ □ □ [ia U] . □□，□□□□□□□□□ IDS 

□，□□□□□□□□□□，□□□□□□□□□□ 

□ □□，□□□□□□、□□□□□ [ 12 ~ 14 ]，□ □ □ 
□ □□□□□，□□□□□□□□. □□□□□□ 
□□□□□□□□□□，□□□□□□□□□□□ 
□，□□□□□□□□□□□□□，□□□□□□□ 
□ ['□ □□□□□□□□□. 

8 □ □ 

□ □□□□□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□□、□□□□□□□□ 
□□□□□□□□□□□□□□□□.□□□□□ 
□ □□□□□□□□，□□□□□□□□□□□，□ 
□ □□□□□□□□□□□□□□□□□□□□□ 
□ 16 
□ □□□□□□□□□□□□□□ OC48 □ □ □ □ 

□ □ □ □ 
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□ □□□□ 


□ □ □ □ Internet □□□□□□ * 

□ □ □□□ □□□ 

(□□□□□□□□□□□□□□□□□□□□□□□ □□□ 150001 ) 

G D Internet □□□□□，□□□□□□ □口 Internet □□□□□□□ 。 □□□□□□□ □口 
traceroute □□□□□□□□□□□□□，□□□□□□□□□ ISP □ □ □ □ □ Internet □ □ □ □ 
□ □□□□□□□□，□□□□□□□□□□□□□□□□□□□□□□□□□，□□□□□□ 

□ □□□□□□□□□□□□、□□□□ DNSD 』 

□ □□□□□□□□□□□ □□口 o 

□ □ □ Internet 口 □□□ □□□□ □□□□ □□ □□□□ 


1 □ □ 

□ □ Internet □□□□□□□，□□□□□□□□□□□ 
□ 0 □□□□□□ □ 

□ □ Internet □□□ 口 ,□□□□□□□□□□□□□□□□ 

□ □ , Internet □□□□□□□□□□□□□□□□□□□□ 

□ □ □ 0 


* □□□□□□□□□□□□□□□ (No. 60203021 )□ □ 


0 D □ □ □ Internet □ □ □ □ Internet □□□□□□ ,0 0 

□ Internet □□。□□□□□□□□□口， □□□□□□□□ 

□ ,□□□□□□□□□□□□□□□□□□□□□ 0 □ □ 

Internet □□□□□□□□□□□□□□□ (autonomous system , 
AS ) 口 。 □ 

□ □□□，□□□□□□□□□，□□□□□□□□□□□□□ 

□ o □ □ □ □ □ Internet □□□□□□□□□□ ,□□□□□□ 

□ □□□□□□□□、□□□□□□□□□□□□□□□□□ 
□ □ □ □ 0 
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Research of Multicast Listener Discovery 
Technique Based on SSM over IPv6 


Chen Xiaodan , Zhang Hongke 

(School of Electronics and Information Engineering, Beijing Jiaotong University, Beijing 100044) 

Abstract With the advance of multicast technologies, source-specific multicast has been introduced as a feasible communication model. 
Based on the discussion of the principle of SSM and MLDv2, this paper discuss MLDv2 realization mechanism and kernel function flows. 
In addition, interface state transition based on listener-side is also mentioned and resolved. 

Key words SSM, multicast listener, interface state transition (□口 □口 ： 2004-07-15) 
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□ □ □ □ 2004 □ □ 9 □ 


0 internetDDDDDDDDDDDDDDDDDDDDD 

□ □ □ □ □ □ □ □ Internet □□□□□□□□□□□□□ 

□ □□□□，0 0 □ 0 □□□□□□□□□□□□□ 0 0 □ 
□ □□□□□□』□，□□□□□□□□□□□□，□□□ 
□□、□□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□，□□□□□□□□□□□□□ 

□ □□□□ 。口 □□□□□□□□□□□□□□□□ □ ISPD 

DDDDDDDDDDDD Internet □ 

□ □□□□□□□□□□□□□□□□□□ [ I . 6 . 71 ，□口 □口 

□ □□□□□□□□ ISP □□□□□□□□□□□ DRIMA 
(distributed router-level Internet mapping architecture)®。□ □ □ 

□ □□□□□□□□□□□□□□』□□□□□□□□□ 
□□、□□□□□□□□□□□□□□□□□□□□』□□ 

□ □□□□□ D 0 □□□□□□□□□ 0 □□□ 0 □ o 

□ □□□□□0 0 □ 0□,□□□□□□0 □□□□□□ 0 
□ □□□□□ 0 □□□□□□□□□□□□□ 0 □□□□ □ 

□□□□□□□□□□□□□□□□□□□□□□□□□a 

□ 0 0 0 □ □ o 

2 □□□□□□ 

D D D internet DDDDDDDDDDDDDDDDDD 

□□□□□□□□： 

• □□□□□□□□□□□□□。□□□口 Pansiot J.O 

□ □口 問 、□口 Internet D D D D (Internet mapping project, 
IMP) [10 ' 11] ,Mercator 1121 0 □□□□_□ □ □ 。 □ 
Pansiot ■!.□□□□□□□□□□□□□□□□□□, 

□ □00D0D0o0D,D Internet □□□□□□□ 
D,DDDDDDDDDo IMP 0 Mercator □ □ □ □ □ 

□ □□,□□□□□□□□□□□□□(□□□□□ 

□ Mercator □□□□□□□□□□□□□ 
0 D traceroute □□□□□□□□□□□□□□□ 。0 

□ 0 2000 D Internet DDDDDDDDDDDDD 

0 0 □ 8 %[ 12 ] ，口 □□□□□□□□□□□□□□ 

□ □□□□□□，□□□□□□□□□□□□』□ 
□ □□□□□□，□□□□□□□□□□□□□□□ 
□』□□□□□□□□□□□□□□□□□□□□ 
D □ 0 □ o 


• □□□□□□□□□□□□□□,□□□□□ CAIDA 
(cooperative association for Internet data analysis)D skitter 

□ □【〜□□□□□□□□□□□ Internet 0 0 0 0,0 

□ □□□□□□□□□□□□□□□』□，□□□□ 

□ □□□□□□□□□□□□□□□□ ISP □ □ □ □ 

□ 0 0 0 0 □ 0 o 

•DODO traceroute D 0 D (PTrS) , 0 D D D D 
Rocketfuel □□□□□□□□□ ISP □ □ □ □ □ ISP 

□ 0 ,0 □ □ □ □ 0 □ □ 0 o 

□ □□□□□□□□ [1]D [2]D □□□□□□ Internet □口 

□ (skitter 0 □□□□□□□ 

□ □ )o 

□ □□□□□□□□□ 2|] □ 2D , 

□ □□□□□□□□□ 2D □□,□□□□□□□□□□□ □ 

□ □□□□』□□ , DRIMA □□□□□□□□□□□□□□， 

□ □□□□□□□□□□□□□□□□□□□,□：□□□□□ 

□ □□□□□□ 0 

3 □□□□□□ 

DDDDDDDDDDDDDDDDDDD traceroute□ 

□ 。 ，□□□□ traceroute 

□ □□□□□□□□□□□□□DO 0 

0 D ,PTrS o o □ 0 0 0 0 0 , 0 0 0 0 0 ISP o o o 
PTrS ⑴ □□□□□□□□,9 □□□□ ISP □ □ □ Chinal69 □ 
(D □□□□□)□□□ 2Q □□□□□□□ PTrS)。□ □ □ 

0 0 0 0 0 0 0 ISPD PTrS(5.8%)0 0 0 0 ISPD □ □ □ □ □ H o 

□ □□□□□□ ISP0 □，□□□□□□□□□□□，□□□□ 

0 □ □ 0 □ 0 □ □ □ □ □ □ 0 [U21 o 

0 D , ODD ISP 0 D , □□□□[]□□ Internet D D D 
(IXP)0 o o ISP 0 0 ,0 0 ,0 0 0 0 ISP □ PTrS o □ o o 
ISP □□□□□□□□ ISP D 0 0 0 IXPD00000000 

□ □ D ID □ o □ □ 1C ,□□□□□□□□□□□□□ □ 

□ ISPD0D，□□□□□□□□□ „□□□□□ PTrS,0 □ □ 

□ ixp, 口 □□□□□□□，□□□□□□□□□□，□□□□ 

□ □□刚 PTrS 4 D □ □ 

0 □ 0 □ □ □ □ 0 □ 0 0 □ o 

□ 0 ,PTrS □□□□□□ o □□□□□□□□□□□ □ 

PTrSD ： 

• 00 PTrSDOODOOOOOODDDD DNS(0D 
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□ □ □ □ □ 


ICMP 

□ ,UDPO OOOOOODOO 

□ 口。 □□□□□□□□□□□□ ， DUDP0 icmp□ 

□ □□□□□□□□□□□□，□□□□□□□ TCP 

□ □□□□□□□』□□□□□□□□□□□□□ 
□□□□□，□□□□□□□□□□□□□□□□□ 
□ □ □ „ 

• □□□□□□ PTrS □□□□□，□□□□□□□□□ □ 


图 3 DRIMA 的三层逻辑结构 

□ 3D□□□□□□□□□□□□□□□□□□□ □□口 
□、□□□□□□(□ 3 口 □□□□□□□)□□□□□□□ □ 
□ □□□□□，□□□□□□□□□□□□□□□，□□□□□ 
□□□□□□，□□□□□□□□□□□□□□□□□□□□ 
□ 。 3 □□□□□□□□) □口 

0 D 0 0 □ 0 □ 0 

4.2 D 0 □ □ □ □ □ □ 0 0 D □ □ □ 

D D D Internet 0 0 0 0 0 0 0, 0000000000 
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□ □□□□□□□□□□□□，□□□□□□□□□□ 

D，traceroute □□□□□□□□□□□□□』□，□□ 

□ □□□□□□□□□□□□□□ (DNS 0 0 PTrS □ 

□ )，□_□□□□□□□□□□□□□□□□』 

□ □□□□ PTrS □□□□□□□□□□□□□□□ □ 

□ □□□□□ PTrS □□□□□□□□□□□ 0 □□ □ 

□ □□□□□□□□□ 0 

□ □ □ 0 □ PTrS □□□□□□□□□ (DDoS)0 □ □ 

□ □□□□□ PTrS 0 0 □ 0 0 D 0 0 0 0 0 0 0 0 0 
PTrS 

□ Internet 0 □□□□□□□□ 

□ □,□□□□□ PTrS 口 □□□□□□□□□□□□ 。 

□ □□□□□ PTrS □□□□□，□□□□□ UDP(0 0 

□ □□□□)□□□□□□□ 

ICMP ⑴ 00000000 )0 

0 0 0 (echo request) 0 0 0 0 


• □□□□□□ PTrSO 30 

□ □□□□□□ [1 ' q , □□□□□□□□□□□□ TTL 
(time to live )0 □□□□□□(□ 30 □),□□□□□□ a 
□ □，□□□□□□□□□□□□□□□□□□□□□』 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
ISP0DDD, □□□□□ ISP□□□□□□□□„ □ □ □ □ 
□ □□□□□□□□□□ □口 ISP 0 PoP (point of presence )D 
□，口 □ 20 □，□□□□□□□□ □ ISPD □□□□□□„□ 



4 □□□□□□□□□□□□□ 

0 0 0 0 0 ,0 0000000000000000 internet 

□ □□□□□□□□□□□□□ DRIMA □□□□□□□、□ 

□ □□□□□□□□□□□，□□□□□□□□□□ [8]。 □ 口， 

□ □ □ □ □ [1] 口 □□□□□□□□□□ 3 □□□□□□□ □ 

□ □ 0 o 

4.1 □□□□□□□□□□□□ 

□ 0 □ ,□□□□□ Internet □ □□□□□□□□□□□□ 

□ : 。 □ 口 ， □□□□□□□ 

□ □□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ 口 。 □□□□□□□□□□□□□□□□□□ 3 □ 口。 








D D D 


□ p □ I — I □ 

□ CM □□口 

□ I ’ DP □口 

□ □ u □口 



























□ □ □ □ 2004 □ □ 9 □ 


□□□□□□□□□□□□□，□□□□□□□□□□□□□ 

□ □□□□□ 0 □□□□ 0 □ o □□□□□□□□□□□□ □ 

□ ,0 □ Internet 0 □□□□□□□□□□□□□□□、□□□ 

□ □□，□□□□□□□□□，□□□□□□□□□□□□□□ 

□ □□□□□，□□□□□□□□□□□□□□』 □□口 □口 

□ □□口 □，口 □□口 □ 口。 □ 口， □ 
□，□□□□□□□□□□□□□，□□□□□□□□□□□□ 

□ □◦□□,□□□□□□□□□□□□□□□ ISPD □ □ □ □ 

□ ISPD □□□□□□□□□□□□□,□□ □ 

□ □□□□ ISP □ 0 □□ 0 0 □□□□□□□□□□□□□ □ 

□ □,□□□□□□□ ISPD □□□□□□□□□□□□□„□ 
口， □□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□□□□(□□□□)□□ 4□口， □□□□□ □□口 

□□□□□□□□□□□□□□□„ 


图 4 DRIMA 的三层部署实施逻辑框架 

ODD Internet □□□□□□□□ Rocketfuel □ skitter , 0 
□ □□□□□□□□□□□□□□□□□』□□□□□□□ 
□□□，□□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
(□□□□□□□□□□□□□ A □,□□□□□□□□□ -i 


□ □□□□□□□□□ □，口 □□□□□□□ 。0 □□，□□ □ 

□ □□_□□□□□□□□□□□□□□□，□□□□□ 
□ □□_，□□□□□□□□□□□□□□□□□□□□ 
□ □□』□□□□□□，□□□□□□□□□□□□□□□ 
□ □□□□□□□□□□□』□，□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□ 。 □□ ， S[ □ K』□□□□，□□□□□□□ □ 

SJ □□□，□□ SJ □□□□□□□ □□□□□□，□ 

□ K, o o o o □ □ o □ □ o o o o o o □ □ o □ □ □ o □ □ 
□，□□□□□ 。 

4.4 □ □ D 0 □ □ □ 0 □ 0 0 □ 

□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□□□ 0 0 □□ 0 0 □ 
□□□□□□□□□，□□□□□□□□□□ 0 
□ □ ， □□□□□□□□□□□□□□□□□ 0 

□ □□□□□□□□□□□□□□□ oD □□□ 

D D D D D (China education and research net¬ 
work, CERNET)Q □ 。 □ CERNET □ 0 0 IPD 

□ □□□□□□□□□□□□□□□□ 24 bit 

□ CERNET 0 0 0 IP 0 0 0 0 0 0 

□ □□□□□□□ 24bitD □□□,□□□□□□□□□□ □ 

□ 

!?□□□□□□□□』□□□□□□□□□□□□□□□ 

□ IPD □□□□□□□□□□□□，□□□□□□』 □□口 

□ IP □□□□□□□□□□□□ □ 



□ ,□□□□□□□«□，□□□□□□□□□□ Ws[| o 0 
h=\5,d=20 000,s=10,0 □□□□□□ 3 000 □□)◦□□□□□ 
□ ， □□□□□□□□□□□□□□□□□□□□□□□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□□□□□□□□□□□□□□□□,□□□□□□□□□□， 

□□□□□□□□□□□□□□□□□，□□□□□□□□□ 

□ □ 0 

4.3 □□□□□□ 

□ ISP,0 ooooo 

□ □□□□□□□□ oD □□□□□□□□□□□□□□□ □ 

□ □□□□□□ (D □□□□□□□□□□□□□□ ),0 □, 

_□□□□，□□□□□□□□□□□□□□□□□’ 口 

□ □□□□□□□□□□□□，□□□□□□』□□□□□ 


□，□□□□□□□，□□□□□□□□□□□□□□□□□ 

□ □,□□□□□□□ [l]D □□口 □ 口。□□口 □ 口，□□口 
□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □□□』□□,□□□□□□□□□□□□□□□□□ 
□，□□□□□□□□□□□□□□□□□□，□□□ TCP □ 
□，口 □□□□□□□□□□□□□□ 。 □ 口 ， □ IP □□口 □ 

□ □ 0 0 

□ □□□□ ISP0DDDDDDDD ，□□□□□□ Internet 

□ BGP0 □□□□□□□□□ 
0 0 0 0 

4.5 

□ □□□□□□□□□□□□□□□□_□□□□□ 

□ □□□□□□□□□□□， □□□□□□□□□□□„ 
traceroute □□□□□□□ 3Q0D ,DDDDDDDDDDD 
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□ □ □ □ □ 


□ □□□』□□□□□□，□□□□□□□□□□□□□□□ 

□ (□□□□□□□□□□□□□,□□□□ 3D 0 □ □ □ □ 0 

□ □□□□□□□□□』□，□□□□□□□□□□，□□□ 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 
□ □□□)◦□□，□□□□□□_ □□□□□□□□□,□ 
□ □□□□□□□ 3 口 □□□□，□□□□□□□□□□□ □ 


□ 1 □□□□□□□□□□ DNS □□□□ 


□ □ □ □ 

IPD □ □ □ (□) 

□ □ □ DNS □□□□(□) 

□ □ (%) 

□ □ 

166 740 

2 261 

1.36 

□ □ 

175 157 

2 242 

1.28 

□ □ □ 

187 644 

1 961 

1.05 

□ □ 

529 541 

2 866 

0.54 


□ □□□□□□□□□_□□ TTLQ □□□□□，□□□ 

□ □□□ 3 □□ 口，口 □□□□□□□ 3 口 □□□□□□， □口 

□ □□□□□□□□□□ oD □□□□□□□□ 5D 5D 
□□□□□□□□□□□□□□□□□□□□□□□□□□□ 

□ □ 。 □ 5D □ 1,2,30 □□□□□□□□□ 1D □ □ □ 2 

□ □□□□□□□□ 3D □□(□ 2D □□□□□□□ ) 0 □ □ 


□ □□□ 。0 □□□、□□□□□□□□□□□□□,□ 2003 □ 
40 0 CERNET □□□□□□，□□□□ CERNET □ □ □ □ □ 

□ □□□□□□□□□□□□ CERNET □□□□□□□□□ 

□ □□□□□□□□□□□□□，□□□ CERNET 0 0 D □ 0 


5D □ □ □ □ 0 0 , 0 0 0 □ □ □ 10 0 □ 0 □ 0 0 □ □ 
89.08%, □□□□□ 2D0D00D0D0D00D0000 

□ □ 99.79 %。 □□□□□□ ，□□□、□□□□□□□□□□， 

□ □□□□□□□□□□□□□□□□□□□□□□ „ □□ □ 

□ □□□ 3D□ 
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Mapping Router-level Internet Topology 
from Multiple Vantage Points 

Jiang Yu, Fang Binxing, Hu Mingzeng 

(Research Center of Computer Network and Information Security Technology, Harbin Institute of Technology, Harbin 150001) 


Abstract Along with Internet rapid expansion, research communities have paid ever-increasing attention to the challenging task of measuring 
Internet topology. In this paper, the limitation of employing public traceroute server for topology measurement is addressed, and a three-level 
architecture, which is comprised of a three-level system structure and an integrated three-level deployment framework, for router level 
Internet topology measurement of individual ISPs by a third party is presented. A two-stage random selection is employed for making the 
adjacent destination IP addresses out of order to avoid set off intrusion detection systems. The effects in reducing network overload and 


improving system efficiency by employing methods of on-demand probing at each hop and centralized DNS query are also presented. The 
topology measurement system is evaluated from functionality by its impressive output. 

Key words Internet topology measurement, topology discovery, router level, routing, architecture 
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网络运行安全指数多维属性分类模型 

张永铮 云晓春 

( 中国科学院计算技术研究所北京 100190) 

( 中国科学院信息工程研究所北京 100093) 

( 信息内容安全技术国家工程实验室北京 100190) 

摘要 安全指数作为反映和测度网络安全态势的一种核心方法，具有重要的研究意义.为度量网络信息系统在 
运行过程中的安全态势，文中给出了网络运行安全指标和指数的定义，提出了 10个关键分类属性以及指数分类的 
通用概念模型 ICM， 该模型为具体指数分类模型的构建和不同分类模型的比较提供了统一的模型方法.基于 ICM 
模型和10维分类属性，文中同时提出了一个多维属性指数分类模型 ICMM 1Q ，并通过4个典型指数的应用实例阐 
明了 M 1Q 模型的应用过程和应用意义.应用实例分析表明，]\^。模型能够刻画出安全指数在10个关键属性上的本 
质特性，对深入研究指数特性、关系及其内在含义具有指导意义，同时，也为建构多层次安全指数体系提供了理论 
和技术基础. 

关键词 网络安全 态势； 安全 指数; 指标 体系；分类; 评估 

中图法分类号 TP309 DOI 号： 10. 3724/SP. J. 1016. 2012. 01666 

Network Operation Security Index Classification Model with 
Multidimensional Attributes 


ZHANG Yong-Zheng YUN Xiao-Chun 

(Institute of Computing Technology ， Chinese Academy of Sciences ， Beijing 100190) 

(Institute of Information Engineering ， Chinese Academy of Sciences » Beijing 100093) 

(National Engineering Laboratory of Information Content Security Technology » Beijing 100190) 

Abstract As a core method, security indices are greatly significant for reflecting and measuring 
network security situation. To measure the security situation of network information systems in 
runtime, this paper defines two concepts of network operation security indicator and index, pro¬ 
poses ten key classification attributes and a common conceptual model for index classification 
(ICM) which provides a uniform formal methodology for establishment of a model example and 
comparison of different models. Based on ICM and the attributes, this paper also presents an in¬ 
dex classification model with multidimensional attributes M 10 . Four representative indices are giv¬ 
en to illustrate the process and senses of applying M 10 . The analysis of the application example in¬ 
dicates that because of ability to depict the natures of security indices on ten key attributes, M 10 
has guiding significances for deep study on the natures, correlations and meanings of indices，and 
also provides a theory and technology base for establishing a hierarchical system of security 
indices. 


Keywords network security situation ； security index ； index system ； classification ； evaluation 


收稿日期 ： 2009-04-17 ; 最终修改稿收到日期 : 鉍 12-02-07. 本课题得到国家自然科学基金 （ 60703021 ， 61070185) 、国家 “ 八六三”高技术研 
究发展计划项目基金 （ 2007AA01Z444,2007AA010501) 资助 . 张永铮，男， 1978 年生，博士，副研究员，主要研究方向为网络与信息安全、 
安全评估、安全监控等 . E-mail : zhangyongzheng@iie.ac.cn. 云晓春（通信作者），男 ,1971 年生，博士，研究员，博士生导师，主要研究领域 
为网络与信息安全 . E-mail ： yunxiaochun®cert, org.cn. 




8 期 


张永 铮等： 网络运行安全指数多维属性分类模型 


1667 


1引言 

互联网作为国家的基础信息设施，为人们提供 
了各种各样简单而快捷的信息使用方式，同时作为 
重要的信息资源和服务资源，互联网也关系着国家 
和全社会的根本利益.随着信息化技术和互联网技 
术的快速发展，针对网络信息系统的恶意攻击变得 
越来越多样化和复杂化.在我国，互联网的安全状况 
也同样令人堪忧，在利益的驱动下网络安全事件更 
加频繁、隐蔽和复杂，这些安全事件极大地威胁了我 
国的国家安全和人民生活，也给广大企业造成了严 
重的损失. 

那么，如何感知当前的网络安全状况，如何及 
时、准确、全面的评估网络安全态势，如何预测网络 
安全趋势走向是保障网络信息系统安全所面临的重 
要问题.为此，学者们纷纷开始研究网络安全态势监 
测、评估和趋势预测技术.而安全指数（或指标，下 
同）作为反映和测度网络安全态势的一种核心方法， 
已成为监测、评估与趋势预测技术的研究基础，具有 
重要的理论意义和实际价值. 

根据方滨兴等人提出的信息安全框架体系模 
型 [1] ，安全指数可分为物理安全、运行安全（网络安 
全）、数据安全(狭义的信息安全)和内容安全等4个 
层面指数，分别反映了电磁装备安全、信息系统安 
全、信息自身安全、信息利用安全.其中，运行安全指 
数又可称为网络安全指数，本文仅在网络安全指数 
的概念范畴内展开研究工作. 

从公开发表的文献来看，国内外具有一定代表 
性的网络安全指数或指标相关研究工作包括： 

(1) 安全风险评估指标 

林闯等人 [2] 综述了国际上网络安全性的随机模 
型与评价技术，归纳并提出了可靠性、可用性、保险 
性、机密性、完整性等网络安全性评价指标以及应用 
随机模型的方法研究网络安全性的技术思路.程学 
东 [3] 从网络安全层面、侧面和维数等角度，提出了电 
信网物理安全、传输网络安全、业务网络安全等电信 
网网络安全评估指标 . Gao 等人 [4] 从通信与操作、访 
问控制、资产等方面建构安全指标体系，以评估网络 
安全风险.吕欣”从信息系统安全保障的角度，提出 
了一个可以测度国家信息保障成熟度的评价指标体 
系.胡勇等人 [6] 通过分析风险与安全事件的关系，基 
于安全事件的可能性和后果构建了一个电信网风险 
评估指标体系框架.王娟等人 [7] 从脆弱性、容灾性、 


威胁性、稳定性等方面构建了一个用于网络安全态 
势感知的指标体系. 

(2) 威胁评估指标 

Hariri 等人 [s] 针对大规模网络提出了一种基于 
Agent 结构的网络脆弱性监测模型，给出了网络失 
效和攻击度量方法，并基于网络性能度量指标，评估 
分析网络攻击和失效对网络系统安全的影响 .Qu 
等人 ® 针对特定的网络攻击，提出了 一些可用于衡 
量网络安全性的参数，并给出了一种全网安全属性 
的计算方法.胡汉平等人 [1 ° ] 基于网络传输过程中的 
主动防御模型，提出了一种网络数据传输过程安全 
性的测量、量化和评估的方法，给出了相应的评价指 
标.陈秀真等人 [11] 基于 IDS 取样数据和网络带宽占 
用率实现了一个面向局域网的网络安全指标体系， 
提出了一种层次化安全威胁态势定量评估模型及相 
应的量化计算方法.汪生等人 [12] 提出了一个用于评 
估网络攻击效果的指标体系. 

由此可见，现有研究工作主要围绕着安全风险 
评估指标和威胁评估指标两方面.其中，安全风险评 
估指标是网络安全风险评估这一传统研究领域的主 
要研究内容，一般涉及脆弱性、威胁、安全保障、安全 
管理等风险因素，由于难于从客观实际中找到科学 
合理的计算依据，所以主观因素相对较多，如脆弱性 
被利用的概率、攻击的有效性、安全保障的能力、人 
员管理等等.而威胁评估指标的研究工作相对较少， 
主要以网络性能参数、攻击事件等信息为依据，重在 
对网络攻击或威胁本身的评价，从一定程度上反映 
了网络威胁态势，具有一定的实时性和客观性. 

综上所述，针对用于反映网络信息系统在运行 
过程中的安全态势的运行安全指数的研究很鲜见， 
尽管仅有的威胁评估指标研究成果具有积极的借鉴 
意义，但研究还不够深人，尚缺乏网络运行安全指数 
的系统的专门的研究，尤其是用于反映互联网宏观 
安全态势的安全指数.此外，安全指数分类描述是安 
全指数及其体系研究领域中的一个基础课题和重要 
课题，从公开文献上看，尚未见指数分类模型的研究 
报道. 

为此，本文借鉴社会经济统计学原理，给出了网 
络运行安全指标和指数的定义.随后，提出了 10个 
关键分类属性以及指数分类的通用概念模型 ICM 
(Index Classification Model ). 并基于此，提出了一- 
个多维属性指数分类模型 ICM M 10 . 最后，通过应用 
实例阐明了 。模型的应用过程、优势、特点及应用 
意义.本文的目的及贡献主要 在于： （1) 给出网络运 



行安全指标和指数的定义，用于反映和度量网络信 
息系统在运行过程中的安全 态势； （ 2) 提出指数分 
类的通用概念模型 ICM ， 该模型能够形式化地描述 
指数分类的一般过程，旨在为具体指数分类模型的 
构建和不同分类模型的分析比较提供一个统一的模 
型 方法； （ 3) 提出多维属性指数分类模型。，该模 
型对深人研究指数特性和关系，深刻理解已知指数 
的内在含义，深度挖掘未知指数，充分发挥指数的实 
际效用具有一定的指导意义. 

2安全指标与指数 

根据网络安全领域的研究与实践经验，并充分 
借鉴社会经济统计学原理，我们对本文中的网络 
运行安全指标、指数等概念给出了以下定义. 

定义 1. 网络运行安全指标 （Network Opera ¬ 
tion Security Indicator ) 是指能够反映网络信息系 
统运行安全态势的网络数据特征的概念和数量，本 
文中简称为安全指标或指标.网络运行安全指标用 
于反映和度量网络信息系统在运行过程中的安全状 
态及其趋势. 

定义 2. 网络运行安全指数 （Network Opera ¬ 
tion Security Index ) 是指能够反映网络信息系统运 
行安全态势的网络数据特征变化程度的相对数，本 
文中简称为安全指数或指数.网络运行安全指数用 
于反映和度量网络信息系统在运行过程中安全态势 
的变化量. 

从安全指数与安全指标的概念可知，安全指数 
是安全指标在数量上的变化程度的一种相对数，可 
作为一种测度方法，对不同质现象的数据在量上的 
变化进行综合计算和度量，因此，安全指数可用于反 
映不能直接相加的复杂数据特征现象的综合变化 
程度. 

3指数分类属性 

—般地，指数的每个分类属性对应指数的一个 
本质特征，每个分类属性可以将指数分成若干类，而 
利用单一属性无法区分同类中的指数，因此，为了能 
够深人地理解指数的内在本质，评价和认识不同指 
数在不同方面的区别与特长，充分挖掘指数对网络 
安全态势细致客观反映的潜能，我们应对指数进行 
多维分类属性的分析和描述. 

下面，我们将分别从安全特性、数据特征、计算 


依据、对象规模、数据对象、计算形式、现象性质、基 
期、地域、网络对象等10个方面详细阐述和分析指 
数的分类属性. 

3.1 安全特性属性 

按指数所反映的网络安全特性的不同，可分为 
可用性指数、异常性指数、有效性指数及其它指数. 
可用性指数是指用于反映网络数据通信和共享信息 
的可用程度的一类指数，主要包括网络链路可用性 
指数和网络服务可用性指数，例如延迟指数、带宽指 
数、服务容量指数、访问量指数等等.异常性指数是 
指用于反映由安全威胁或攻击所引起的网络通信数 
据特征异常程度的一类指数，该类指数通过网络数 
据异常来反映和度量安全威胁或攻击行为及其对网 
络脆弱性的利用程度，例如流量指数、协议成分指 
数、 IP 分布指数、端口分布指数、包间隔分布指数、 
汇聚模式指数等等.有效性指数是指用于反映网络 
通信数据中信息承载的有效程度的一类指数，通常 
以网络传输层面上网络数据中正确和有效信息的比 
重作为测度有效性的依据，例如当网络中充斥着大 
量无效、无用、伪造数据报文时，说明网络的有效性 
较差，可见无效报文量指数、信息无效访问量指数、 
伪造报文量指数等等都属于该类指数.“其它指数” 
类是为保证分类的完整性而做的补充，同时也为安 
全特性分类的拓展提供可能. 

3.2 数据特征属性 

按指数所反映的网络数据特征的不同，可分为 
数量特征指数、成分特征指数、相似性特征指数、分 
布特征指数、模式特征指数及其它指数.数量特征指 
数是指用于反映网络数据在数量特征上的变化程度 
的一类指数，如流量指数等.成分特征指数是指用于 
反映同度量因素下网络数据在比例特征上的变化程 
度的一类指数，如协议成分指数等.相似性特征指数 
是指用于反映同度量因素下网络数据在相似性特征 
上的变化程度的一类指数，如流量相似性指数等.分 
布特征指数是指用于反映网络数据在统计分布特征 
上的变化程度的一类指数，如 IP 分布指数等.模式 
特征指数是指用于反映网络数据在行为模式特征上 
的变化程度的一类指数，如汇聚模式指数等. 

3.3 计算依据属性 

按指数计算依据不同，可以分为直推式指数、归 
纳式指数和其它指数.直推式指数是指以网络原始 
数据为依据通过公式或模型计算出的一类指数，例 
如流量指数、协议成分指数、 IP 分布指数等等.该类 
指数直接地反映了网络安全态势，对安全态势的变 
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化表现得比较敏感、迅速，实时性较强.归纳式指数 
是指以网络原始数据中检测或归纳出的相应事件、 
规则为依据而计算出的一类指数，例如僵尸网络指 
数、蠕虫指数、恶意代码指数、网络攻击指数等等.该 
类指数从具体安全事件上间接地反映了网络安全态 
势，较明确具体，可充分利用已有安全资源，其指数 
计算的准确性依赖于检测或归纳出的相应安全事 
件、规则的正确性，例如，如果以网络人侵检测系统 
上报的人侵事件的数量和类型为依据来计算网络攻 
击指数，那么人侵检测系统自身的误报率、漏报率和 
虚报率将会影响网络攻击指数对网络安全态势的真 
实反映. 

3.4 对象规模属性 

按指数所反映的对象规模不同，可以分为个体 
指数、类指数和总体指数.个体指数是指用于反映个 
别现象的变化程度的一类指数，如北京电信某骨干 
节点流量指数等.类指数是相对于个体指数而言，是 
用于反映一*类或一组个体现象的变化程度的^类指 
数，如北京电信流量指数等.总体指数同样相对于个 
体指数和类指数而言，是用于反映总体范围某种现 
象的变化程度的一类指数，如中国电信流量指数等. 
3.5 数据对象属性 

按指数所涉及的数据对象的不同，可分为 IP 指 
数、端口指数、应用服务指数以及由它们自由组合构 
成的组合指数. IP 指数是涉及给定 IP 地址的网络 
数据对象的一类指数，如 159. 226. 39. 1指数等.端 
口指数是涉及给定端口地址的网络数据对象的一类 
指数，如80指数等.应用服务指数是涉及给定应用 
服务的网络数据对象的一类指数，如 www 指数等. 
组合指数是涉及给定若干 IP 、 端口和应用服务的网 
络数据对象的一类指数，常见的组合指数包括全网 
指数、子网 （ IP 集合）指数、 IP - IP 指数、流 (4 元组）指 
数、 IP : P () RT 指数、 IP : 应用服务指数等等，比如， 
159. 226.39.0 子网指数、 159. 226.39. 1-159. 226. 39. 2 
指数、 159. 226. 39. l ： www 指数等等.上述指数主要 
用于反映给定数据对象及对象集合的安全态势. 

3.6 计算形式属性 

按指数采用的计算形式不同，可分为综合指数、 
平均数指数及其它指数.综合指数是采用所有个体 
指数总量计算而得的一类指数，如北京电信流量指 
数等，它是编制总体指数所常用的一种计算形式.平 
均数指数是采用所有或抽样个体指数加权平均计算 
而得的一类指数，如北京电信流量平均数指数等，按 
平均方法不同，平均数指数分为加权算数平均数指 


数和加权调和平均数指数.平均数指数往往只需要 
计算抽样样本个体指数的加权平均，从而根据样本 
来反映总体指数，比较综合指数而言，实际应用性 
更强. 

3.7 现象性质属性 

按指数表明的现象性质不同，可分为数量指数 
和质量指数.数量指数是用于反映网络数据在数量 
上的变化程度的一类指数，如流量指数、延迟指数等 
等.质量指数是用于反映网络数据在质量上的变化 
程度的一类指数，主要体现在网络数据内容及其相 
互关系所呈现出的内在规律和特性上，如 IP 分布指 
数、流量相似性指数、发散模式指数等等. 

3.8 基期属性 

按指数采用的基期不同，可以分为定基指数、环 
比指数及其它指数.定基指数是指采用某3固定时 
期为基期的一类指数，用于反映不同时期与固定时 
期安全态势的变化程度，易对不同时期的指数进行 
对比，易于表现长期的态势与趋势.环比指数是指始 
终采用上一期为基 期的一 类指数，用于反映当前时 
期与上一时期安全态势的变化程度，易于表现近期 
的态势与趋势，不适合不同时期的指数的对比. 

3.9 地域属性 

按指数所涉及的网络对象所属地域的不同，可 
以分为国家（或地区）指数、区域指数、省份指数、城 
市指数及其它指数.国家指数是用于反映1个国家 
网络安全态势的一类指数，如中国指数等.依次类 
推，区域指数、省份指数、城市指数分别用于反映其 
地域范围内网络安全态势的一类指数，如华北指数、 
河北指数、石家庄指数等.实践中，各类地域指数通 
常可采用平均数指数的计算形式. 

3. 10 网络对象属性 

按指数所涉及的网络对象的规模不同，可以分 
为运营网（广域网）指数、机构网（局域网）指数和其 
它指数.运营网指数是用于反映面向用户的大规模 
多层次跨地域的运营商网络安全态势的一类指数， 
如中国联通指数、中国电信指数、中国铁通指数、中 
国移动指数、教育网指数等等.机构网指数是用于反 
映一个组织或机构为内部网络通信或接人运营网而 
组建的小型局域网络的安全态势的一类指数，如中国 
电力网指数、中国人民银行网指数等等.实践中，各类 
网络对象指数通常也可采用平均数指数的计算形式. 

综上所述，本文提出了 10个指数分类属性，并根 
据每个分类属性对指数进行了详细的分类描述，指数 
分类属性及其对应的指数类別汇总如表1所示. 
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表 1 指数分类属性汇总 

属性 

类别 

分类依据及意义 


可用性指数 

反映网络数据通信和共享信息的可用程度 

安全特性 

异常性指数 

反映由安全威胁或攻击所引起的网络通信数据特征异常的程度 

有效性指数 

反映网络通信数据中信息承载的有效程度 


其它 

反映网络其它安全特性 


数量特征指数 

反映网络数据在数量特征上的变化程度 


成分特征指数 

反映同度量因素下网络数据在比例特征上的变化程度 

数据特征 

相似性特征指数 

反映同度量因素下网络数据在相似性特征上的变化程度 

分布特征指数 

反映网络数据在统计分布特征上的变化程度 


模式特征指数 

反映网络数据在行为模式特征上的变化程度 


其它 

反映网络数据在其它特征上的变化程度 


直推式指数 

以网络原始数据为依据，直接地反映网络安全态势 

计算依据 

归纳式指数 

以网络原始数据中检测或归纳出的相应事件、规则为依据，间接地反映网络安全态势 


其它 

以其它形式的数据为依据 


个体指数 

反映个别现象的变化程度 

对象规模 

类指数 

反映一类或一组个体现象的变化程度 


总体指数 

反映总体范围某种现象的变化程度 


IP 指数 

涉及给定 IP 地址的网络数据对象 

数据对象 

端口指数 

涉及给定端口地址的网络数据对象 

应用服务指数 

涉及给定应用服务的网络数据对象 


组合指数 

涉及给定若干 IP 、 端口和应用服务的网络数据对象及对象集合 


综合指数 

采用个体指数的总量计算而得 

计算形式 

平均数指数 

采用所有或抽样个体指数的加权平均计算而得 


其它 

采用其它计算形式 

现象性质 

数量指数 

反映网络数据在数量上的变化程度 

质量指数 

反映网络数据在质量上的变化程度 


定基指数 

采用某一固定时期为基期，易对不同时期的指数进行对比，易于表现长期的态势与趋势 

基期 

环比指数 

始终采用上一期为基期，易于表现近期的态势与趋势 


其它 

其它基期选择方式 


国家或地区指数 


地域 

区域指数 
省份指数 
城市指数 

反映相应地域范围内的网络安全态势 


其它 

其它地域 


运营网（广域网）指数 

反映面向用户的大规模多层次跨地域的运营商网络安全态势 

网络对象 

机构网（局域网）指数 

反映一个组织或机构为内部网络通信或接入运营网而组建的小型局域网络的安全态势 


其它 

其它网络对象 


4多维属性分类模型 

4.1 通用模型的定义 

为了能够形式化描述和构建网络安全指数的多 
维属性分类模型，本文首先提出指数分类的通用概 
念模型 ICMCIndex Classification Model ) ，其相关定 
义如下. 

定义 3. 指数集合 I = Name X Formula X 
Description ， 为集合 Na me^ Formula 、 Descri ption 
的笛卡尔乘积，其中，集合 Name 表示指数名称，集 
合 Formula 表示指数的计算公式，集合 Description 
表示指数含义的简单描述.一个3维向量 iei 唯 — : 
标识^个指数. 

定义 4. 分类属性集合乂={八„,|八„,为分类属 
性，?》= 1，…4}，其中々表示分类属性的个数，分类 


属性 A „ ，表示为一个属性值的集合，可进一步定义为 
A m = {a m „ \a m „ 为第个属性的第 w 个属性值 ， w = 
1，…，每个分类属性的属性值是对指数在该维 
属性上的分类描述，同时也代表了指数在该维属性 
上的一个指数类别. 

定义 5. 分类属性向量集合 c t =" n .* A „,， 
A 夫 A ，％ k 个分类属性的笛卡尔乘积构建成的属 
性向量空间.一个6维属性向量是对指数的6维分 
类描述，同时也代表了指数在々维属性向量空间下 
的一个指数类别.可见4维属性向量空间下的指数 
类的数量为 | C t |= JX IAJ . 

m = 1，…，是 

定义 6. 分类映射集合 △={ 气|先, ： 1— A „ ，为 

分类属性乂„，对应的分类映射 A U ^ 1 (a m „) = 

» = 1 ,…，& 

I ( a mx ) fH (〜）=0， 工#: y ，工，: y = l ， …，九， 






8 期 


张永铮等：网络运行安全指数多维属性分类模型 


1671 


m=l, — ,k) U {^n : I — C * ， 为 A 维属性分类映射} ， 
其中分类映射 I 为指数在分类属性 A „ 上的分类方 
法，分类映射\为指数在々维分类属性上的分类方 
法.易证，多维属性分类映射 \可由 单属性分类映 
射先,（》2 = 1，…，^ ；) 构成. 

定义 7. 指数分类模型 ICMM=(J,A ， Z\),* 
中 I 表示指数集合 ， A 表示分类属性集合，△表示分 
类映射集合. 

由此，我们给出了一个指数分类的通用的概念 
模型，该模型形式化地描述了指数分类的一般过程， 
旨在为指数分类模型具体实例的构建和不同分类模 
型的分析比较提供一个统一的模型方法. 

4.2 通用模型的能力分析 

由于任何指数均可由集合 Name、Formula , 
Description 的笛卡尔乘积描述，所以根据定义1可 
知，指数集合/包括了所有指数，又根据定义6可 
知，对 we J ，有 S m (i) ^ A m (?n=l ,■■■ ,k) V (O G 

，则 ICM 模型具有对所有指数的分类描述能力. 

根据 ICM 模型的定义可知，指数分类的过程就 
是将指数映射到属性集合或属性向量空间的过程， 
如果分类属性及其属性值越细致，那么一个指数类 
所包括的指数就越少，说明指数被表达得更清晰，更 
容易分析和比较指数之间的关系、研究同类指数的 
共性； 另一方面，如果分类属性选取得越科学，那么 
对指数的分类描述就越深刻，越能够反映指数的本 
质特性，更有助于理解指数的意义.因此，模型的分 


类描述能力取决于分类属性集合 A 的定义，在应用 
实践中，可通过增加或完善分类属性及其属性值的 
方法来增强模型的描述能力. 

在给定属性集合 A 的前提下，针对分类属性的 
分类映射设计得越准确、简单、明确，则越能够保证模 
型分类的准确性和应用中的可操作性.因此，模型的 
准确性和可操作性取决于分类映射集合△的定义. 

由此可见，构建 ICM 模型的核心工作就是选取 
分类属性，确定属性值，定义分类映射. 

4.3 多维属性分类模型 

基于 ICM 模型，并结合前文提出的安全特性、 
数据特征、计算依据、对象规模、数据对象、计算形 
式、现象性质、基期、地域、网络对象等10个关键分 
类属性，我们提出了一个多维属性指数分类模型，其 
定义如下. 

定义 8 . 多维属性指数分类模型 ICM M 1() = 
(■ T ， A ， zA ) ，其中 A = { Security , Character , Evidence ， 
ObjectScale ， DataObject ， Form ， Phenomena , Base , 
其属性依次为安全特性、数据特 
征、计算依据、对象规模、数据对象、计算形式、现象 
性质、基期、地域、网络对象，其属性值以及分类映射 
的具体定义前文已做详细阐述，不再赘述. 

由定义5和定义8可知，分类属性向量集合 C 1Q 
是一个由10个分类属性通过笛卡尔乘积构建成的 
向量空间，如图1所示.其中一个10维属性向量代 
表了指数在10维属性向量空间下的一个指数类别， 


数据对象 网络对象 



图 


。模型的10维分类属性向量空间 
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在图中呈现为一个覆盖10轴的闭环区域，显然，处 
于相同区域的指数表示同属一个指数类.向量空间 
C 10 下的指数类数为 | C ia |= XX | AJ =233 280, 

m=l ,10 

可见。模型具有较强的分类描述能力. 

5应用实例及意义 

5.1 应用实例 

为了阐明 M 。分类模型的应用过程，我们从安全 
指标(或指数)体系、安全态势分析等已有研究和科研 
活动中，选取了 4个典型的指数作为实例，具体 包括： 

(1) 指数1 

指数 名称： 北京电信骨干网流量指数. 

计算 公式: 设基期和报告期的骨干节点数分别 
为 N 。 和况，流量总和分别为 Q 。 和 Q : ，则该指数 

Ind eXl = 脊 J 其中以网络骨干节点数为同度量 

因素，下同. 

简单 描述： 该指数反映了北京电信骨干网全网 
环境下网络流量较基期的变化程度. 

(2) 指数2 

指数 名称: 北京电信骨干网目的 IP 分布指数. 
计算 公式: 设基期和报告期的骨干节点数分别 
为凡和 M ，目的 IP 分布相对熵总和分别为 E 。 和 

Ei ，则该指数 Index 2 = ^~ I ^ _ 

简单 描述： 该指数反映了北京电信骨干网全网 
环境下目的 IP 分布较基期的变化程度. 

(3) 指数3 

指数名 称:北 京电信骨干网 DDoS 攻击指数. 
计算 公式: 设基期和报告期的骨干节点数分别 
为凡和 M ， DDoS 攻击数总和分别为 D 。 和 A ，则 

该指数 lnd eX3 = m 

简单 描述： 该指数反映了北京电信骨干网全网 
环境下 DDoS 攻击数量较基期的变化程度. 

(4) 指数4 

指数 名称： 上海电信骨干网流量指数. 

计算 公式: 设基期和报告期的骨干节点数分别 
为 N 。 和况，流量总和分别为 Q 。 和 Q : ，则该指数 



简单 描述： 该指数反映了上海电信骨干网全网 
环境下网络流量较基期的变化程度. 

应用 M 1 Q 分类模型，对 Index ! G J ( z '= 1，…， 4) ， 


求得心 （ Index ,) G C % (/ = 1，…， 4) ，其分类结果如 
表2所示. 


表 2 4 个指数的分类结果 


分类属性 

指数1 

指数2 

指数3 

指数4 

指数名称 

北京电信骨干北京电信骨干北京电信骨干上海电信骨干 
网流量指数网目的 IP 分网 DDoS 攻击网流量指数 

安全特性 

异常性 

布指数 

异常性 

指数 

异常性 

异常性 

数据特征 

数量特征 

分布特征 

模式特征 

数量特征 

计算依据 

直推式 

直推式 

归纳式 

直推式 

对象规模 

类指数 

类指数 

类指数 

类指数 

数据对象 

组合.全网 

组合.全网 

组合.全网 

组合.全网 

计算形式 

综合指数 

综合指数 

综合指数 

综合指数 

现象性质 

数量指数 

质量指数 

质量指数 

数量指数 

基期 

定基指数 

定基指数 

定基指数 

定基指数 

地域 

城市 

城市 

城市 

城市 

网络对象 

运营网 

运营网 

运营网 

运营网 


5.2 应用意义 

基于上述4个典型指数的分类实例，我们将详 
细阐明。分类模型的优势、特点及应用意义，具体 
表 现在： 

(1) 有助于深人研究指数特性、关系及其意义. 

通过。模型的分类描述，使人们对指数的本 
质特性有了更深人的了解.由表2可知，以指数1为 
例，指数1被 Mi 。模型描述为一种针对城市级运营 
网全网对象的、基于数量及数量特征的、采用直推式 
的、定基的、综合方法的、反映网络异常性的类指数. 

进而，基于 M , 。模型的分类描述，有助于人们分 
析和比较不同类指数之间的关系，研究同类指数的 
共性.从表2可以看出，指数1和指数4在10维属 
性上同属一类，那么在某些条件下（如基期一致等） 
我们可以对指数1和指数4进行同类的比较，以评 
估和测度北京电信和上海电信在流量上的安全态 
势.此外，指数1、指数2和指数3在安全特性上都 
反映了网络的“异常性”，但在数据特征、计算依据和 
现象性质上却各不相同，所以不能直接进行比较，其 
中指数1和指数2在计算依据上同属“直推式”，分 
别为“数量指数”和“质量指数”，即在相同计算依据 
条件下分别反映了网络“异常性”的数量现象和质量 
现象，由此可见，为综合反映网络的“异常性”，而对 
指数1和指数2进行指数的合成运算（如加权平均 
等）是有意义的.而对指数2和指数3而言，虽都反 
映网络的“异常性”且同属“质量指数”，但计算依据 
不同，分别属于“直推式”和“归纳式”指数，其实质是 
同一数据依据的直接形式和间接形式，显然合成运 
算是没有意义的.同理，“定基指数”和“环比指数”也 
不宜合成运算. 
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(2) 有助于构建层次式细粒度指数体系. 
iV ^ 。模型提供了 10维分类属性，可以从不同维 
度属性对指数进行展开以构建针对不同安全需求的 
层次式细粒度指数体系，从而支持不同层次不同侧 
面的网络安全态势的测度与评估.由。模型定义 
可知，安全特性、数据特征、计算依据、现象性质、网 


络对象等属性适于横向展开，构建同层指数，对象规 
模、地域等属性适于纵向展开，构建层级指数，而数 
据对象、计算形式、基期等属性则不宜展开.以应用 
实例中4个典型指数为例，我们依次纵向展开对象 
规模属性，横向展开安全特性、计算依据属性，从而 
构建了一个5层指数体系的示例，如图2所示. 


总体指数 


对 象规模 
安全特性 
计算依据 



类指数 


类指数 


类指数 


- - 

——1-, 

-- 

—— | — 

-- 

可用性 


异常性 

有效性 


可用性 

异常性 

有效性 

1 

直推式 


1 

归纳式… 


1 1 

直推式 归纳式… 

1~~ 1 ― 1 

1 


指数 1 

指数2… 

指数3… 

指数4… 


图2 —个5层指数体系的示例 


(3) 有助于设计新指数及新指数类. 

如前文所述，。模型具有较强的分类描述能 
力，理论上能够支持233 280个指数类，显然，在现 
实应用中，会存在大量的“空”指数类，然而其中的一 
些“空”指数类可以在理论上引导和指导符合应用需 
求或具有现实意义的新指数的设计和研究.此外，当 
大量指数被。模型在多维属性向量空间上划分到 
“其它”类时.表明模型的描述能力已不能满足应用 
需求，由于模型具有良好的扩展性.所以可以从“其 
它”类指数中提取共性，增加或完善分类属性及其属 
性值，形成新的指数类，并基于 ICM 通用模型重构 
实例分类模型以满足日益增长的应用需求. 

6结论 

为反映和度量网络信息系统在运行过程中的安 
全态势，本文给出了网络运行安全指标和指数的定 
义，提出并详细阐述了安全特性、数据特征、计算依 
据、对象规模、数据对象、计算形式、现象性质、基期、 
地域、网络对象10个关键分类属性.随后提出了一 
个指数分类的通用概念模型 ICM , 该模型能够形式 
化地描述指数分类的一般过程，为具体指数分类模 
型的构建和不同分类模型的分析比较提供了一个统 
一的模型方法.基于 ICM 模型和10维分类属性，本 
文同时也提出了一个多维属性指数分类模型 ICM 
。，并通过4个典型指数的应用实例阐明了 M , 。模 
型的应用过程，深人分析了 。模型的优势、特点及 
应用意义.应用实例分析表明 ， Mi 。模型能够从不同 


层次不同侧面细致地刻画出安全指数在10个关键 
属性上的本质特性，对深人研究指数特性和关系，深 
刻理解已知指数的内在含义，深度挖掘未知指数，充 
分发挥指数的实际效用具有一定的指导意义，同时， 
也为建构易扩展、可定制、多层次、细粒度的安全指 
数体系提供了坚实的理论基础和有效的技术支撑. 
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systems of risk assessment，the differences of our work are 
that ： (1) our work is more objective because of using the char¬ 
acteristics of real data in a running network to measure the se¬ 
curity situation ； (2) our work is for reflecting a macro-view 
situation of large- scale complex network such as Internet. 

The problem of index definition and classification dis¬ 
cussed in this paper is a basis of solving the establishing 
problem of index system. The contribution of this paper is to 
define two concepts of network operation security indicator 
and index，propose ten key classification attributes and a 
common conceptual model for index classification (ICM), 
and also present an index classification model with multidi¬ 
mensional attributes (M 10 ). This paper provides a theory and 
technology base for establishing a hierarchical system of 
security indices. 
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基于最小圆覆盖区域划分的索引过滤算法 
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摘要过滤算法设计是信息内容安全处理系统中的一个重要环节，过滤速度成为衡量过滤系统性能的首要因 
素 . 索引结构是处理大规模数据的一种有效方式，但目前索引方法都是针对特定检索领域而设计，在实际过滤应用 
中，并不能满足过滤实时性需求 . 为了加快信息过滤中数据查询的判定速度，文中提出一种基于最小圆覆盖的区域 
划分方法，构建了适合过滤的索引 结构： F-tree. 该算法充分考虑实际过滤环境中正例（正常信息）多、反例（敏感信 
息）少的非平衡数据分布特性，利用最小圆覆盖划分方法得到最大否定判断区域 . 在查询阶段，正例以最大概率落 
入否定区域，根据否定性判定原理可以对正例快速否定判定，从而加快整体查询的判定速度 . 实验表明，与现有算 
法相比，所提出的算法减少了查询中的距离计算次数，有效提高了过滤查询性能 . 
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Abstract Filtering algorithm design play a very important role in information content security 
process system , filtering speed become the first consideration factor for improving the system 
performance . Index is an effective method to cope with massive data and can get a good perform ¬ 
ance . Unfortunately , most of existing index methods especially designed for information retrieval 
application and these indexes cannot achieve a good performance for filtering application . In order 
to improve the filtering performance，this paper proposes an index filtering method based on min ¬ 
imum enclosing circle data partition，and built a particular filtering index called F - tree . This 
method considers the imbalance data distribution with more positive and less negative in real filte ¬ 
ring situation , the minimum enclosing circle partition method is used to obtain maximum negative 
area . In query step , the positive data falls into negative area with maximum probability in order 
to get up to the all data judgment speed . Experimental results show that the proposed method can 
improve the filtering performance by reducing the times of computation . 

Keywords filtering method ； minimum enclosing circle ； negative judgment ； index structure 
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1引言 

信息过滤是信息内容安全领域具有实际应用价 
值的一个研究方向.针对网络中存在的敏感信息，设 
计有效的过滤算法，对用户所请求的网页信息进行审 
计，从而过滤判定为敏感内容的信息.过滤算法设计 
是整个安全过滤系统中的一个重要环节，决定过滤系 
统整体的速度性能.一般认为敏感信息过滤技术实质 
上是一个二分类的问题，目前过滤算法主要采用基于 
模式分类的方法，通过学习基本的模型，为每个测试 
数据都打上一个标签，从而过滤标记为敏感信息的数 
据，常用的有基于概率论的贝叶斯分类方法以及基于 
最大间隔的 SVM 分类方法.而在实际过滤应用中我 
们需要面对的是海量数据的处理，数据量的个数远远 
超出了传统模式分类方法的应对能力.因此为特征集 
建立有效的索引结构是实现大规模数据高性能检测 
的关键技术.目前在信息检索领域已有大量有效的索 
引构建方法被提出，虽然信息检索和信息过滤在某 
些关键技术的运用上有相似之处，但信息安全过滤 
相比信息检索需要更快的判定速度，在数据处理方 
式上也不同.目前基于检索的索引结构根本不能满 
足实际过滤处理环境中所需的实时性需求. 

本文在分析实际网络中正例与反例非平衡分布 
特性的基础上，提出了一种面向安全过滤的基于最 
小圆覆盖区域划分的索引构建方法.该方法利用否 
定性判定的思想，结合最小圆覆盖理论基础，通过对 
数据进行最小圆划分，使每个最小圆之间呈现稀疏 
性分布特性，以此构建适合实际网页过滤的高性能 
索引结构 F - tree . 本文的主要贡献 包括： 

(1) 深人分析敏感信息过滤的特性，引人图形 
学中最小圆覆盖理论来解决实际的应用问题. 

(2) 提出一■种新的区域划分策略 最小圆覆 
盖区域划分，并基于此划分构建了适合快速过滤的 
索引结构 F - tree , 以满足过滤实时性需求. 

(3) 在大量数据集上，对文本提出的方法进行 
了实验验证. 

多组实验结果证明，所提出的过滤索引结构在 
查询中所需的距离比较次数在不同搜索半径条件设 
置下都少于经典的 M - tree 检索结构，在过滤应用中 
表现出极高的查询性能. 

本文第2节分析过滤索引树结构 特点； 第3节 
描述所需要解决的 问题； 第4节介绍基于最小圆区 
域划分的过滤索引结构 F - tree 的构建 方法； 第5节 
通过实验验证所提出算法的有 效性； 最后是结束语. 


2过滤索引树结构特点 

相似性索引方法一般应用在检索领域，是一种 
处理大规模数据或高维数据的有效技术手段，其基 
本原理是根据数据的分布特性，构建有效的索引结 
构组织数据，从而加快数据检索的速度.典型的检索 
索引结构可以简单地用图1来表示，检索的主要特 
点是尽量多地检索出相关的数据.因此，有效的检索 
树结构要近似平衡树，一般是搜索到叶子节点才返 
回结果，这个结果可以直接反馈给用户，让用户评 
价，从而更新用户模板，使搜索结果更精确.因此，在 
构建基于检索的索引结构时，主要考虑尽量多的搜 
索出满足用户所需求的数据. 



图 1 检索树结构 


由于安全过滤具有实时性和否定判断的特性， 
这个特性与基于检索的索引结构在本质上有所不 
同，因此适合过滤的索引结构和适合检索索引结构 
有很大区别.当构建一个适合过滤的索引结构后，给 
定查询 g ， 我们不需要找出与它相似的多个数据对 
象，因为在安全过滤中没有反馈，不需要把结果反馈 
给用户，只需要尽快判定它的特性，从而直接进行处 
理.因此，我们构建的过滤索引结构，在查询阶段不 
需要每个查询都搜索到叶子节点才返回结果，而是 
查询到部分中间节点时，就可以判定查询数据的特 
征，从而退出查询.典型的过滤索引结构可以用 
图2简单描述.在查询阶段查询数据不需要遍历到 
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叶子节点，只需要使判定结果尽可能在树的中间节 
点就返回.通过设计中间节点的返回模式，加快过滤 
应用中数据判定速度. 

3问题描述 

根据第2节的分析可知，具有高性能特性的过 
滤索引树需要在中间节点就返回结果.根据以上特 
点，在构建索引结构过程中，数据空间的分割是否合 
理，会直接影响索引结构的性能.目前存在的区域划 
分方法（如基于支点选择的方法 [12] ，还有基于划分 
的方法 [3] )，大部分都是遵循层次化聚类的原则.每 
一种索引都有自己的特性，包括数据类型、数据分布 
情况还有维度大小.这些特性对索引结构的性能都 
有较大的影响 . M - tree 索引 W 至今被认为是性能最 
优的索引结构之一，这种索引结构是根据数据空间 
中各个数据点之间的距离进行空间划分的，将一个 
数据空间分成两个子空间 M - tree 也是基于层次 
聚类划分空间，划分后数据空间里的数据聚集较稠 
密，这种结构非常适合检索的需求，数据空间划分示 
意图如图3所示. 



在安全过滤中，由于应用领域不一样，对数据处 
理的方式也不一样，基于检索的索引结构根本不能 
满足实时性需求.下面我们将分析安全过滤中的数 
据分布特性，在此基础上描述具体过滤应用中需要 
解决什么样的特定问题才能构建适合过滤的高效索 
引结构.假设对于给定数据集 X ，其中包括有正例和 
反例，在实际网络环境中数据分布表现为一个非平 
衡分布特性，正例较多（正常信息），反例较少（敏感 
信息）.在查询阶段，我们需要对反例进行判定，继而 
进行过滤处理.在这样一个非平衡的数据分布条件 
下，利用否定性判断原理，只需快速否定判定大量正 


例数据，就可以加快整个查询的综合判定速度，从而 
提高索引结构过滤处理的性能.下面通过一个简单 
实例来说明需要解决的问题.考虑如图4所示的集 
合 S ， 包含有9个数据点，这些数据点都为反例数 
据，所需解决的主要问题是如何对数据区域进行划 
分使得集合 S 中的空白区域最大，即否定判定区域 
达到最大. 



通过上面区域划分构建索引结构，当给定查询 
点 g 时，查询数据点以最大概率落人划分区域后的 
空白区域,就可以快速判定查询数据点必然不属 
于敏感信息.由于在实际过滤中大部分数据都不属 
于敏感信息，所以这样的数据划分就使得大部分数 
据只需与根节点比较或与部分中间节点比较就可 
以得到最后判定结果，从而提高整体数据的查询 
性能. 

想要快速得到判定结果，在区域空间划分时，就 
必须使得划分后的空白区域最大.因此，在构建过滤 
索引树阶段.需要解决以下两个基本 问题： 

(1) 如何得到包含所有点集的最小区域？ 

(2) 如何确保每次区域划分后所得空白区域都 
最大？ 

在第4节，我们将具体描述如何通过最小圆覆 
盖的方法来解决基于否定性判断的快速过滤问题. 

4基于最小圆覆盖的过滤索引方法 

4.1 最小圆覆盖算法 

在数据划分时，为保证在每次区域划分中都 
得到最大空白区域，就需要用一个最小的区域来 
包括数据集族，使得簇间较稀疏，空白区域达到最 
大.求一个最小圆包含给定点集所有点的问题是 
人们在理论和实践上都十分感兴趣的一个问 
题 [ M ] .最小圆覆盖问题可以形式化描 述为： 给定有 
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限点集 s ， 包含所有点集 S 的最小圆 B 满足 ： B = 
B ( c , r ) ：= { x ： ||x — c || < r }. 由于最小圆的圆心是到 
集合中最远点的距离最近 的一 个点，因此在_些规划 
中有实际的应用价值.圆心可以看作是点集的中心. 
基于》个点的最小圆覆盖算法 [9] 可以用算法1 
描述. 

算法 1 . 最小圆覆盖算法. 

输入 u 个数据点 

输出：包含 n 个数据点的最小圆 

1. 在貞 : 集《中任取 3 点 A.B.C, 

2. 作一个包含三点的最小圆 C\. 

3. 在点集中找出距离 0 最远的点 D. 若点 D 在圆(^的 
圆内或圆周上 . 则该圆即为所求的最小圆，算法结束 . 否则 . 
继续执行步 4. 

4. 在 A.B ， C.D 中选 3 个点，求解使包含这 4 个点的圆 
最小 . 所选取的三点成为新的 A.B.C 三点，返回执行步 2. 

最小圆覆盖算法在规划设施中有广泛应用.在 
我们设计的过滤索引结构中，可以用来生成最大空 
白区域，从而可以加快搜索速度.在 4. 2节我们将具 
体描述如何使用最小圆覆盖算法构建适合过滤的索 
引结构 F - tree . 

4.2 F - tree 索引生成算法 

构建适合 F - tree 过滤索引结构的主要目的是 
加快在数据查询阶段的判定速度，使得查询数据 
以最大概率落人索引结构所拥有数据点以外的区 
域，也就是上面所描述的数据划分中的空白区域. 
因此在进行支点选择或区域划分时，首要考虑因 
素是相近点集之间组成的区域尽可能小，而划分 
后的点集区域之间的距离要尽可能大，才能保证 
在数据集划分后，整个集合区域所拥有的空白区 
域最大. 

在实际安全过滤应用中，由于大量查询数据是 
正例，落人空白区域概率较大，因此设计具有较大空 
白区域的索引结构可以使大量查询数据只需查询树 
的根节点或部分中间节点就可以快速得到判定结 
果，而不需要遍历直到叶子节点才返回结果，从而 
加快查询数据集的整体查询速度.由以上结合具 
体过滤应用领域的理论分析，基于启发式规则，我 
们设计了一种有效的基于最小圆覆盖的过滤索引结 
构 F - tree . 

假设有包含》= 3+的数据集 D ， 那么适合安全过 
滤应用领域的 F - tree 索引结构的构建方法由算法2 
给出.在构建过滤索引树结构中，采用自低向上逐层 
构成节点的生成方式. 


2012年 

算法 2. F - tree _ Build ( il ). 

输入 ：反例 数据集 (12) 

输出: F-tree 

1. 叶子节点的生成* / 

a ) 在12中选择离原点最近的一点 A ; 

b ) 寻找离最近的两点«2 ； 

C ) 求解 A 、 M 2 、《3最小覆盖圆 C ! ; 

d ) 寻找离 Q 最远的点 U 4; 

e ) 寻找离最近的两点 Ms ; 

f ) 求解 最小覆盖圆 Cl ; 

g ) 重复执行步 d ) 〜 f )， 直到所有数据点都生成最小圆. 

在通过以上处理阶段的区域划分后，可生成3— 1 个包 

含3个数据点集的最小覆盖圆，由这些最小圆集合可生成过 
滤索引树 F - tree 的叶子节点. 

2. /* 中间层节点的生成 */ 

a ) 从3— 1 个最小圆中选择圆心离原点最近的圆 c 1; 

b ) 寻找离 q 最近的两个圆 c 2 、 c 3 ; 

c ) 基于(: n 、 c 2 、(: 3 包含的所有点，求解最小覆盖圆 c 4 ; 

d ) 寻找离 c 4 最远的两个圆 c 5 ; 

e ) 寻找离 c 5 最近的两个圆 c 6 、 c 7 ; 

f ) 求解 C 5 、 C 6 、(: 7 包含所有点的最小圆 C 8 ; 

g ) 重复执行步 d ) 〜 f )， 直到3& 1 个最小圆集合中每 
三个最小圆所包含的所有数据点都生成最小覆盖 
圆，可以生成3— 2 个最小覆盖圆. 

通过叶子节点中3— 1 个最小圆之间结合处理，可以生 
成3— 2 个最小圆，这些最小圆覆盖了叶子节点中多个最小圆 
所包含的所有数据点集.利用这个阶段生成的3^ 2 个最小圆 
构成过滤索引树 F - tree 的第 k ~ l 层中间节点. 

3. 重复第2阶段，经过迭代划分，依次可生成过滤索引 
树 F - tree 结构的第々一2,々一3,…，1层的中间节点. 

4. 最后包含所有数据点的最小覆盖圆构成 F - tree 的 
根节点. 

由上面建树过程可知， F-tree 为一颗平衡二叉 
树，具有平衡二叉树所拥有的良好特性，同时也具备 
具体应用领域的特点.结合过滤应用领域中非平衡 
数据分布特性，利用最小圆覆盖划分数据区域，使得 
区域划分后的数据空间空白区域最大，符合查询阶 
段否定性判断的处理，可以加快整体的查询速度.在 
图 5 中，通过一个简单的例子描述了过滤索引树 
F-tree 构建过程中数据区域划分情况，首先在图 5 
( a ) 中，由 3 个数据点生成的最小覆盖圆构成 F-tree 
中每个叶子节点；其次， F-tree 中间节点可以通过叶 
子节点中最小圆之间结合生成（图 5( b )); 最后覆盖 
所有点的最小圆构成 F-tree 的根节点（图 5( c )). 图 
示中只展示了两个最小圆的结合方式. 


计算 机学报 



io m 


陈 洁等： 基于最小圆覆盖区域划分的索引过滤算法 


2143 





4.3 F - tree 相似性查询算法 

众多应用领域要求索引结构有相似性查询，即 
查找数据库中与某个给定的高维适量最近的6个数 
据，这一查询通常称为 K 近邻查询.当 K =\ 时为 
“最近邻查询”，这个是在检索领域所需要的查询.而 
在过滤应用领域，我们需要通过相似性来判定数据 
的特性或性质，不需要找出在查询阶段所搜索到的 
具体数据点.因此，在 F - tree 的相似性查询阶段，采 
用区域查询的方法进行数据的判定处理.区域查询 


可由定义1给出. 

定义 1. 区域查询 •给定 一个查询 （ gw-)， g e 
M , M 为对象集 . r 为查询半径，是一个非负值，区 
域查询就是要从对象集 M 中找出与查询 g 之间距 
离小于 r 的所有数据库对象. 

给出区域查询的定义后，现在来描述基于区域 
查询的 F - tree 的查询算法.给定查询 J ?( g ， r )， 设置 
查询的查询半径为 r . 基于过滤索引 F - tree 的区 
域查询算法可用如下步骤来 描述： 

给定一个查询 Riq<r) 

1. 从根节点开始遍历查询 F-tree. 

2. 在每个中间节点 C,. 执行： 

a) 如果 rf(g，q 2 r ， 退出搜索，对查询 g 执行放行 
处理 . 

b ) 如果 d ( g ， C ;)<? • ，进人子节点搜索.直到 g 不属于 
任意节点区域 . 退出 搜索； 否则 . 搜索到叶子结点， 
报告与 g 距离最近的节点 

与基于检索的索引结构不同，基于过滤的索引 
结构在查询阶段不需要遍历整棵索引树的所有节 
点，由于生成了最大的否定判定区域，大量查询在中 
间节点就可以报告满足条件的节点，退出查询.在查 
询过程中，查询节点将大量减少. 

5实验结果与分析 

5. 1实验设置 

在实验中，我们对基于最小圆覆盖区域划分的 
索引结构 F - tree 进行了测试，并与基于检索的索引 
结构 M - tree 的性能进行了比较和分析.两种索引结 
构均使用 Windows 环境下的 C 语言实现.由于距离 
计算的费用较高，我们就使用“距离计算次数”作为 
算法计算复杂度的度量准则.另一方面，由于我们实 
现的是内存索引结构，所以这里我们并不考虑磁盘 
的 I / O 操作.在实验中，选取两个实验数据集，一个 
数据集 datal 包含729 个随机生成的均匀分布数 
据，另一个是由2187个随机生成的均匀分布数据组 
成的数据集 data 2. 分别验证所提出的过滤索引结构 
应用在不同数据量情况下的查询性能. 

5.2 实验结果 

数据集 1. 在数据集1的基础上，分別建立相应 
的 M - tree 和 F - tree . 查询性能的好坏是衡量索引结 
构好坏的一个重要标志^，在查询阶段，采用 q ( r ) 
区域查询方式.我们随机地选取100个查询数据点， 
计算这100个查询的平均距离计算次数，并据此来比 











°0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 

搜索半径 r 

图 7 数据集 data2 上两种索引性能比较 


域搜索半径为 0. 0001时 . M - tree 索引结构的平均 
距离比较次数只有 16. 51次，而 F - tree 的平均距离 
比较次数却达到 27. 88次， F - tree 距离比较次数是 
M - tree 的 1. 6倍左右.随着查询半径 r 的增加， 
F - tree 与 M - tree 之间的距离比较次数差距逐渐减 
小.当半径增加到 0.01 左右时， F - tree 的距离比较 
次数开始小于 M - tree .查询性能开始增强，继续增 
加查询半径， F - tree 与 M - tree 之间的距离比较次数 
差距变大，在整个查询半径变化过程中， F - tree 的查 
询性能整体呈现增强趋势，查询性能优于 M - tree . 
总体来说， r 在0〜 0. 1的区间变化时， M - tree 的查 
询性能受半径变化的影响较大，表现为图6中斜率 


△ F-tree 



图 6 数据集 datal 上两种索引性能比较 
从图6所展示的实验结果可以得出，在最初区 


较大的曲线.相反， F - tree 在整个半径变化过程中， 
查询中所需距离比较次数随着半径增加，所需的查 
询次数变化较小.在整个查询半径增加的过程中，性 
能趋于稳定.因此，在一定查询半径变化波动范围 
内， F - tree 在查询性能上相对于 M - tree 来说，性能 
相对稳定. 

数据集 2. 主要测试两种索引结构处理大数据 
集的性能变化情况.同样，我们从数据集中随机选择 
100个数据作为测试中的查询数据，表2中给出了 
两种索引结构在不同查询半径设置下所需的距离比 
较次数.图7描述了两种索引结构所需距离比较次 
数随查询半径变化而变化的曲线图. 


表2两种索引结构距离比较次数 （ data 2) 


搜索半径 r 

M-tree( times) 

F-tree( times) 

0. 0001 

40. 94 

34. 09 

0. 002 

45. 33 

34. 75 

0. 004 

50. 15 

35. 98 

0. 006 

54. 89 

37. 33 

0. 008 

59. 30 

38. 50 

0. 01 

63. 63 

39. 64 

0. 02 

85. 76 

46. 63 

0. 04 

129. 72 

69. 10 

0. 06 

173. 20 

97. 48 

0. 08 

215. 44 

133. 42 

0. 1 

258. 26 

175. 99 


从表2和图7所展示的查询结果可以得出，当 
搜索半径为 0. 0001时， M-tree 索引结构所需的距 
离计算次数为 40. 94,而 F-tree 却只需要 34. 09,在 
最初始设定的查询半径条件下， F-tree 所需的距离 
比较次数要小于 M - tree . 而随着查询半径的增加， 
F-tree 所需距离比较次数与 M-tree 所需的距离比 
较次数之差也逐渐增加，距离比较次数只有 M-tree 
的1/2左右.在整个查询半径变化区间内， F-tree 距 
离比较次数随查询半径增加的变化相对稳定，在 
图7上表现为斜率较小的曲线. 

300. ■ ■ - . - . - . - . - . - . - 

-a- M-tree 


较这两种索引结构的性目 g . 在表1中 ， M - tree ( times ) 
和 F - tree ( times ) 分别表示两种索引结构从根节点 
开始直到查询到满足要求的所有数据点所需要的距 
离比较次数. 


表1两种索引距离比较次数 （ datal ) 


搜索半径 r 

M-tree( times) 

F-tree( times) 

0. 0001 

16. 51 

27. 88 

0. 002 

18. 77 

28. 24 

0. 004 

21. 18 

28. 78 

0. 006 

23. 57 

29. 56 

0. 008 

25. 97 

30. 28 

0. 01 

28. 08 

30. 70 

0. 02 

39. 67 

33. 61 

0. 04 

61. 80 

42. 28 

0. 06 

82. 36 

53. 26 

0. 08 

101. 77 

65. 86 

0. 1 

121. 10 

82. 90 


将查询半径 r 的值设置为 0. 0001开始进行实 
验，在多组实验中，逐渐增加搜索半径 r 的值，直到 
r =0. 1，以此用来测试在设置不同搜索半径 r 的条 
件下，两种索引结构所需距离比较次数的变化.图6 
给出了数据集 datal 上两种索引所需要的距离比较 
次数随查询半径增加而产生的不同结果. 


2144 


计 算 


机 


学 


报 


2012年 




























10 期 


陈 洁等： 基于最小圆覆盖区域划分的索引过滤算法 


2145 


datal r=0.02 data2 

图 8 两种数据集 datal 和 data2 的性能比较 

5.3 结果分析 

在所设置的多组实验中， F - tree 都表现出了较 
好的性能，这是因为我们所需要面对的具体问题是 
敏感信息过滤，而实际网络环境中敏感信息数据分 
布具有非平衡性.并且在过滤过程中需要具有较快 
的判定速度.根据以上两个特性，利用最小圆覆盖划 
分数据区域，使否定区域达到最大，这样构建的索引 
树是一棵平衡树，每个节点区域不会存在覆盖问题， 
所划分的节点区域也会比较稀疏.在 F - tree 的查询 
阶段，由于我们得到了最大的否定区域，在查询半径 
较小的情况下，需要比较的数据点较多，查询性能优 
势不明显.而当半径增加，查询 g 遍历节点时，覆盖 
的数据点较多，分布较多的正常数据以最大概率落 
人否定区域，从而在查询时可以快速得到判定结果. 
而基于检索的 M - tree 索引结构在划分数据空间时， 
数据划分比较稠密，以便搜索到更多的相似性数据， 


39.67 


33.61 


85.76 


HM-tree 
]F-tree 


46.63 


下面，我们比较数据集大小的变化对查询性能 
的影响，设定搜索半径为 r = 0. 02,分别得到在两种 
数据集下所构建的 M - tree 和 F - tree 两种索引结构 
的查询性能比较（图 8). 从图8中的结果描述中可 
以得出，在搜索半径设置为 0.02 的情况下， F-tree 
的搜索性能在两种数据集上的测试中都要优于 
M - tree . 尤其是应用在不同数据量的情况下 ， M-tree 
搜索所需要的距离比较次数随着数据量急速增大， 
也表现急剧增加的趋势 ：当数 据量为729时，所需距 
离比较次数为 39. 67,而当数据量增加到2187时, 
所需的距离比较次数增加到 85. 76,这个距离比较 
次数是应用于小数据集时所需距离比较次数的2倍 
左右，查询性能下降速度较快.而对于所提出的基于 
过滤的索引结构 F - tree 来说，从图8所展示的实验 
结果可以得出，当数据量为729时，距离比较次数为 
33. 61，而当数据量增加到2187时，所需的距离比较 
次数为46_ 63,数据量的增加对 F - tree 的索引性能 
影响很小. 


在查询判定阶段，每到一个区域都需要进一步判断， 
并不适合需要快速判定的非平衡分布敏感信息过滤 
领域，在搜索距离比较次数上相比稀疏区域划分的 
过滤索引结构 F-tree 有所增加. 

6结束语 

索引是基于内容相似性查询的有效方法，而数 
据空间的分割直接影响索引结构的查询性能.本文 
针对实际敏感信息过滤应用中数据非平衡分布的特 
点，提出了基于否定判断的过滤模型.采用基于最小 
圆覆盖的区域划分方法解决基于否定性判断的过滤 
问题，构建符合否定判断的过滤索引结构 F - tree . 实 
验结果显示 ：在不 同查询半径值 r 设置下， F-tree 的 
查询性能明显优于 M - tree ， 并且随着数据量的增 
加， F-tree 所需的距离比较次数增长幅度不大.因 
此，所设计的 F-tree 索引结构在综合性能上表现出 
一定的稳定性和鲁棒性. 
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Background 

This paper focuses on the research of filtering algorithm 
in information content security. Filtering algorithm design is 
an important step for information filtering system. Some 
methods have been proposed to apply pattern classification, 
such as SVM ， Bayes» et al，to filter unmoral data. Howev¬ 
er, these methods do not work well to be faced with massive 
data. Then，some researches proposed index-based method to 
cope with these massive data, but at present, these indexes 
only consider the information retrieval application, some data 
area partition methods do not suitable for the good perform¬ 
ance demand of filtering. In this paper, an index filtering al¬ 
gorithm based on minimum enclosing circle partition is pres¬ 
ented. Considering the imbalance data distribution in real fil¬ 
tering situation which including most normal data and rare 
unmoral data. In this situation, we need to filter unmoral 
data with a good performance. By utilizing minimum enclo¬ 
sing circle for unmoral data area partition, we can get the 


biggest negative area, so a filtering index structure F-tree 
will be built. In the query step，all query data will be taken 
into negative is with the maximum probability. According to 
the principle of negative judgment, the query data need not to 
search all nodes in F-tree，and this searching may be exit at 
some intermediate node. Therefore，our method can achieved 
a good filtering performance owing to the fast judgment for 
the most normal data. This work is partly supported by the 
National High Technology Research and Development 
Programs ( 863 Program ) of China under Grant 
No. 2011AA010705 and No. 2007CB31110. This algorithm is 
meaningful for improving the performance of filtering sys¬ 
tem. The team has done several works in the field of infor¬ 
mation content security. A filtering prototype system has 
built, and the feature extraction work has been discussed in 
some other papers. This paper focuses on the filtering algo¬ 
rithm for improving the filtering speed. 
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Abstract: This study proposes a logic-based security policy framework. First, the study proposes the security 
policy syntax and semantic. Next, four algoritms are proposed to transfer first-order logic based security policies 
into extended logic programs to evaluate queries with simple goals, to transfer complex queries into simple ones, 
and to verify security policies against complex security properties. Under well-founded semantics, all the algorithms 
are sound and completed, and their computational complexities are polynomial. In this framework, security policy 
declaration, evaluation and verification are executed under the same semantics, which is significant for security 
policy management. Furthmore, the framework can manage the security policies with advanced features, such as 
non-monotony and recursion, which is not supported in many existent security policy management frameworks. 
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摘要： 提出了一种基于一阶逻辑的安全策略管理框架.首先，研究安全策略的语法和语义，给出将安全策略转换 
成扩展型逻辑程序的算法，进而构造出安全策略基本查询 算法; 其次，给出将安全策略复杂查询转换成基本查询的算 
法，进而构造出安全策略验证算法.在良基语义下，上述算法是可终止的、可靠的和完备的，且计算复杂度都是多项式 
级的.该框架可以在统一的良基语义下实现安全策略表达、语义查询和验证，保证安全策略验证的有效性.此外，该框 
架不仅兼容现有主流的安全策略语言,还能够管理具有非单调和递归等高级特性的安全策略. 
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近年来，信息安全研究领域逐渐从安全技术扩展到安全管理,基于策略的安全管理是研究的重点.在安全策 
略管理研究领域，如何表达安全策略、如何利用安全策略蕴涵的语义提供安全服务以及如何保障安全策略自身 
的安全性，这是3个基本而又重要的问题.由这3个基本问题延伸出3个重要的研究方向，即安全策略表达、安 
全策略语义查询和安全策略验证. 

在安全策略表达方面，目前的主流方法是使用形式化的语言描述安全策略.文献 [1] 对安全策略语言进行了 
总结，认为基于逻辑的安全策略语言最容易被人们接受，文献 [2 - 8] 中提出的语言就是这类语言.文献 [2] 首次设 
计了一种基于逻辑的分布式安全策略语言，其语法与扩展型逻辑程序等价，但没有讨论复杂查询的计算方法，无 
法用于安全策略验证.文献[3,4]提出了一种基于分层逻辑程序 [9] 的安全策略语言，称为 FAF ， 它使用稳定语义 [1( « 
作为安全策略的语义 . FAF 严格限制“非”的使用，不支持负递归 (negative recursion ),^： 持量词，描述的安全策略 
也不够精炼，因而使用起来并不方便.由于己有的逻辑程序稳定语义查询算法的计算复杂度较高，因此 FAF 语义 
查询效率较低.文献 [5] 使用约束逻辑程序表达安全策略，约束逻辑程序的约束域能够方便地表达数值计算等特 
性，但其策略决策的计算复杂度较高.文献 [6] 基于动态逻辑提出了一种可用％■表达职责和动态授权的安全策略 
语言，其安全策略验证问题是不可判定的.文献[7,8]仅讨论了安全輩略语言的语法、语义及策略决策算法，并不 
支持安全策略验证这一关键特性. 

虽然目前已经存在多种基于逻辑的安全策略语言，但这些语言基本上都是基于逻辑程序 [9] 的，局限于逻辑 
程序的语法，某些情况下无法容易地描述出一些安全策略.文献 [11] 提出了一种基于一阶逻辑的安全策略语言 
Lithium . 为了有限度地支持量词， Lithium 对其语法进行了 —格的限制，普通管理人员难以理解，并且表达能力有 
限.但是， Lithium 在用一阶逻辑表达安全策略 f 面进行了有益的尝试. 

在安全策略语义查询方面，安全策略究竟表达什么样的语义(即所谓的正则语义)以及在该语义下的查询算 
法是研究的重点.事实上，如何定义安全策略的正则语义是一个非常复杂的问题 [12] .现有的一些文献一般仅讨论 
具有特殊语法结构的安全策_略语言 1 从而可以容易地定义其语义.例如，文献 [1] 仅讨论能够表示成 Datalog 程 
序 [13] 的安全策略，这是因为 Datalog 程序具有公认的正则语义.对于语法较为复杂的安全策略语言，其语义的研 
究往往被忽略了.例如，文献 [2,7,11] 中提出的安全策略语言要比文献 [1] 中提出的安全策略语言复杂得多，但却 
没有深入探讨安全_略语义问题.安全策略语义查询算法的设计难度取决于安全策略语言的复杂程度 ，一 般来 
说，安全策略语^越复杂，语义查询算法的设计就越困难，计算复杂度也越高.因此，现有安全策略语言一般仅局 
限于具有特殊语法结构的逻辑系统.例如，文献 [1] 使用 Datalog 的语义查询算法作为安全策略的语义查询算法， 
其计算复杂度是多项式级的.文献[2,7，11]则没有明确地讨论语义查询问题. 

在安全策略验证方面，目前已存在多种安全策略验证技术 [1 ' 1445] .这些技术的基本思想 是:首 先将待验证安 
全策略转换成抽象模型并通过形式化建模语言描述出来，同时将待验证安全属性转换成形式化的安全属性不 
变式，然后将它们输入到验证工具中完成验证.这需要保证不同表达方式之间转换的等价性，然而，①有时从理 
论上无法实现不同表达方式之间转换的等 价性; ②即使可以从理论上保 i 主转换的等价性，但对于普通安全策 
略管理人员来说，保证实际转换过程的等价性也是非常困 难的; ③ j 全策略验证算法和安全策略语义查询算 
法采用的语义可能并不一致，从而有可能导致验证失效 ( 等问题的产生. 

综上所述，安全策略表达、语义查询和安全策略验证之间是相互制约、相辅相成的.因此，在统一的安全策 
略管理框架中实现上述功能具有一定的优势，但也面临着巨大的挑战.现有安全策略语言大部分仅考虑到语义 
查询问题，而没有考虑到安全策略验证问题，而现有的验证技术又与安全策略语言严重脱节，因而有可能存在验 
证失效等问题.从公开的文献中还没有发现将上述1者统一起来进行形式化研究的成果，相关研究也不多见 ，一 
般仅关注于某些特定类型的安全策略，不具有普适性.例如，文献 [16] 介绍了一种在访问控制空间理论下研究系 
统特权安全问题的方法，指出隐式授权$能导致系统存在不必要的特权滥用风险.然而，隐式授权是现代安全策 
略系统中一种常用的授权方式，现有安全策略语言无一例外都支持隐式授权.文献 [16] 使用一种称为快速构造 
授权图的算法检测是否存在特权滥用，可以认为这是一种特殊类型的安全策略验证算法，但不支持负递归和非 
单调推理等特性.本文提出的方法可用于解决文献 [16] 中提出的问题，且具有更好的通用性. 


© 中国科学院软件研究所 http://www.jos.org.cn 
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基于上述考虑，本文提出了一种基于一阶逻辑的安全策略管理框架 WF - SPevf , 可以在统一的良基语义 [17] 下 
实现安全策略表达、语义查询和验证.一阶逻辑具有足够强的表达能力，良基语义具备一系列优良的特性(参见 
第 1.2 节和文献 [17]), 这使得 WF - SPevf 具有强大的表达能力，其所表达出的每个安全策略具有精确的语义定义 
方式和高效的语义查询算法及验证算法. 

1预备知识 

本文假定读者熟悉一阶逻辑 [18] .为了便于阅读，本节简要介绍本文所使用的各种术语、符号与约定.有关逻 
辑程序及其良基语义的详细讨论可参考文献 [17]. 

1.1 一阶逻辑及相关术语 

本文讨论的一阶逻辑系统的字母表 i ： 由下列7种类型的符号集合 构成： 

① 常元符 号集； 

② 变元符 号集； 

③ 函数符号集； 

④ 谓词符 号集； 

⑤ 逻辑连接符集 C = 卜， 

⑥ 量题符号集 { V ，3} ; 

⑦ 标点符号集. 

本文所用术语，如项、原子、文字、表达式、自由变元、约束变元、闭式、 Herbrand 域、 Herbrand 基、 
Herbrand 解释、语义等的详细定义可参考文献 [9,18]. 为了简单起见，本文 约定： 

① 工为有限集； 

② 所有常元符号都用首字母小 I 的字符串 表示； 

③ 所有变元符号都用首字母大写的字符串 表示； 

④ 函数符号集为 曳集； 

⑤ 所有谓词符号也都用首字母小写的字符串 表示； 

⑥ 符号表示变元序列， a , b , c 等符号表示常元序列 J 等符号表示项 序列； 

⑦ 设 不，...，尤„ 为一阶逻辑表达式 F 中全部的自由变元，则 V Xi ...V Xn (F) 称为 F 的全称闭式，简写为 
V(F),3 Xi ...3 Xn (T) 称为 f 的存在闭式 , 简写为 3(F). 

定义 1( 二值 语义 ) .设 K 5 为由若干个一阶逻辑表达式构成的集合，为 A +的 Herbrand 基,/为 ft 上的 
Herbrand 解释(即/为基本原子集合且/ g //f ) .如果 ft 中的每个表达式>中的真值都为真，即 frG , 则/是 
Fs 的一个二值 Herbrand 语义，简称为二值语义. 

1.2 扩展型逻辑程序及其语义 

扩展型逻辑程序 [9] 是一种语法受限的一阶逻辑系统^每个逻辑程序都由一系列的规则构成，每个规则都具 
有形式的逻辑表达式,它等价于闭式 V ( Av ~ L 1 v ... C - L „) ，—般写成的形式.这里， A 为原 
子，称为规则 头部; L , 为 文字，称为规则体部.特别地，不含变元的规则称为基本规则. 

文献 [17] 从模型论的角度给出了通过3值逻辑定义扩展型逻辑程序良基语义的方法.不同于二值逻辑，三: 
值逻辑认为，人们对客观世界的认识是不完全的，存在一些既无法给出肯定判断也无法给出否定判断的事实，其 
真值是“未定义的”.有关三值逻辑的详细描述可参考文献 [17,19]. 

定义 2( 三值 解释 ) [ 19 ]. 设/ •为一阶逻辑语言，为上的 Herbrand 域,为 Z •上的 Herbrand , 

，且％方 0 ，则序偶及〈之乃为定义在 Z 上的三值 Herbrand 解释，简称为三值解释 . 这里，，中每个基本原 
子的真值为 “ 真 ” ， ' 中每个基本原子的真值为 “ 假 ” ，中每个基本原子的真值为 “ 未定义”.如果 
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则 J 兑变成二值解释.每个二值解释石都可以转化成一个三值解释了 = 〈石; ///- 石〉. 

三值解释去〈之可以等价地看成定义在 // f 上的全函数/://， lj ，如公式 (1) 所示： 

1, ifA&T 

/( A ) = i -, if A si / (1) 

2 

0, ifAeJ ^ 

定义在 Z 土的每个逻辑表达式的真值可递归地定义为如下 形式： 

定义 3( 逻辑表达式的真值 ) [19] .设及〈艺7)为定义在 Z 上的一个三值解释,则 

(1) 如果 A 是基本原子，则 // A ) = /( A ); 

(2) 如果 S 是闭式，则乙 

(3) 如果5■和 G 都为闭式，则 

f T ( SAG ) = min ( I T ( S ), I T ( G )), { jl , if 7^(5) > /^( G ) 

I T {S v G ) = max (/_ r (5'),/ J -( G )), 1 — [0, otherwise 

(4) 对于任意的逻辑表达式&若 X 是 S 的一个自由变元，则 

IA ^ xS )= min {/^(5 D : ceH ^}, I T ( 3 X S ) = max {7 ^(S l Xw ) : cbH ^}. 

由定义 3 可知，三值逻辑中的 “ e ” 和二值逻辑中的 “ e ” 是不同的.在二值逻辑中, S — G 和 Sv 〜 G 等价，而在三. 
值逻辑中, — G ) 和 max (&( S )， l -// G )) 并不恒等，因而 5 VG 和 Sv - G 并不等价.为了平滑三值逻辑和经典 
二值逻辑之间的差异，本文引入一个新的逻辑连接符并且规定 S ^ G 等价于 Sv ~ G . 

定义 4( 三值语义 ) [19] . 不防设扩展型逻辑程序/冲的规则都是基本规则(否则将其实例化)，则三值解释 ytY 是 
的三值语义，当且仅当对于;^任一基本规则 AeLi ，...，!™ ，公式 (2) 都成立. 

/ M ⑷彡 min {/ M ( L ,_): f •在 m } (2) 

显然，每个二值语义都唯一对应着一个三值语义.因此，若无特殊说明，下文中的语义指的都是三值语义.由 
定义4可知，每个扩展型逻辑程序至少有一个三值语义灸〈0;0〉，也可能有多个三值语义 [19] .研究人员普遍认为 
良基语义是比较合理的三值语义，具有一系列良好的特 性:① 每个逻辑程序都具有唯一的良基 语义; ②良基语 
义和一系列特殊类型逻辑程序公认的正则语义等同.例如，分层逻辑程序的良基语义等同于其完美语义 [17] ，而完 
美语义被认为是分层逻辑程序的正则语义 [9] ;③良基语义具备支撑性语义特性 [19] .所谓支撑性语义，是指该语 
义中任意一个基本文字都是由扩展型逻辑程序中某个相应的规则推理得到的.这一特性保证了安全策略描述 
安全需求的有 效性; ④存在高效的基于良基语义的语义查询算法，如 SLG 算法 121 X 211 ，具备良好的实用性.因此， 
本文选择良基语义作为扩展型逻辑程序的正则语义. 

SLG 算法是由 Stony Brook 大学的 Chen 和 Warren 等人提出的一种^效的基于良基语义的逻辑程序语义 
查询算法.文献[20,21]详细讨论了 SLG 算法及其计算复杂度、可靠性和完备性等 问题: SLG 算法的计算复杂度 
是多项式级的;对于 non - Floundering 查询， SLG 算法是 p 靠的和完备的;对于 Floundering 查询， SLG 算法是可靠 
的，但不是完备的.所谓 Floundering 查询，是指 SLG 算法在消解查询目标的过程中，如果按照某种原则选取出的 
子目标是负文字，且不是基本文字，则称这样的查询为 Floundering 查询.从公开的研究资料来看，几乎所有的语 
义查询算法都无法保证 Floundering 查询的完备性.有关 Floundering 及 non - Floundering 查询的详细讨论超出了 
本文的范围，但 SLG 算法在语义查询的过程中具备判定一个查询是否为 Floundering 查询的能力.如果 SLG 断 
定某个查询是 Floundering 查询，则报警并给出原因，然后退出语义查询过程 . XSB 系统是目前被广泛认可而又有 
效的实现 SLG 算法的逻辑程序引擎. 

2安全策略语言 

鉴于已有安全策略语言描述能力及对安全策略验证支持上的不足，本文基于一阶逻辑提出了一种支持安 
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全策略验证的新型安全策略语言，简记为 SPL . 从语法形式上来看， SPL 兼容绝大数现有的安全策略语言，并且比 
它们具有更强的描述能力. 

定义 5( 规则 ). 设胃为不含“―”逻辑连接符的一阶逻辑表达式4为原子，则称公式 (3) 形式的逻辑表达式为 
规则.公式 (3) —般简写成 Ai 胃的形式.若胃为空，则可简写成 A — 或 A . 此时4也称为事实. 

V 04—■ (3) 

定义 6( 安全策略 ) .在本文中，由有限个公式 (3) 形式的规则构成的集合称为安全策略. 

给定安全策略 M 它通过下列方式唯一地定义了一个与对应的一阶逻辑系统4 :①在^57中出现的所 
有常元符号构成4的常元符 号集; ②在_出现的所有谓词符号构成^的谓词符 号集; ③函数符号集为 
空集.因而，^也可简记为#上述类型的逻辑系统中使用的一阶语言，称为安全策略语言，简记为 SPL . 

由定义6可知，每个扩展型逻辑程序都是一个 SPL 安全策略.由定义6还#以知道, SPL 兼容绝大多数已有 
的安全策略语言.例如，它兼容文献 [2-8] 中提出的安全策略语言. 

安全策略语言关注两个方面的表达能 力:总 体表达能力和个体表达能力.前者指通过规则的不同组合最终 
能够达到的表达能力，一般直接称为表达 能力; 后者是指单个规则最终能够达到的表达能力，一般简称为描述能 
力.从安全策略管理的角度来看，具有相同表达能力的两种安全策略语%，描述能力越强的安全策略语言越容易 
受到安全管理人员的欢迎.由于安全策略语言直接面向安全管理员，囪而目前的研究都非常注重安全策略语言 
的描述能力. 

对于任意给定的安全策略^5只设^为其对应的一阶逻辑系统， FU ^ 、为 能够表达的所有一阶逻辑 
表达式的集合， SPWsp )% £即 能够表达的所有鸯全策略规则的集合， /：即 能够表达的所有逻辑程 
序规则的集合.由定义5可知，狀.同样，由第 1.2 节的内容可知，.因而，从语 
法的角度来看， SPL 的描述能力弱于相应的一阶逻辑语言，但强于相应的逻辑程序语言.此外，由本文定理2和定 
理3不难发现， SPL 的表达能力等价 f 扩展逻辑程序的表达能力. 

3安全策略良基语义 

直接定义安全策略语义面临着巨大困难，为此，本文首先将安全策略转换成扩展型逻辑程序，然后利用扩展 
型逻辑程序的良基语义定义安全策略的良基语义.算法1通过转换运算①至转换运算⑩，将安全策略中的规则 
转换成扩展型逻辑程序中的规则，从而将安全策略转换成扩展型逻辑程序. 

算法 1. 安全策略转换 (security policy transformation ). 

PolicyTrans ( SP ) 

For each rule r in SP , apply one of the following transformations to r 


① 

Replace 

A^-W h a-{VaW)aW t 


by 

A<^W h a-VaW t 


and 

A<^W h a-WaW t 

② 

Replace 

A<^W h a(V^W)aW t 


by 

A^W h aVaW t 


and 


③ 

Replace 

A<^W h a-(V^W)aW t 


by 

A<^W h a-VaWaW t 

④ 

Replace 

A<^W h a(VvW)aW t 


by 

A<t-W h aVaW t 


and 

A<^W h aWaW t 

⑤ 

Replace 

A<^W h a-(VvW)aW t 


by 

A<^W h a-Va-WaW t 
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© Replace A<—W//A 〜〜 WaWt 
by A<t-W h aWaW t 

© Replace aV Xi ...V x ^ aW 7 

by A<- 八〜 3 Xi ...3 Xn (- W)aW t 

⑧ Replace A <- a 〜 V XiX W aW t 

by A^W h a3 Xx ..3 Xn (-W)aW t 

⑨ Replace A <— a 彐& ..3 X W aW t 

by A <- 八 W lx 1 H>z 1 ,...,x„i-^z n A ^r 

where Zi,...,Z n are distinct variables that are not freely occurring in A, W H and W T . 

⑩ Replace A <— a 〜彐 ..3 X W aW t 

by A^W H A-p(Y u ...J k )AW T 

and ，…， O <—3 Xi …彐 

where p/k is a new Parity predicate not occurring in SV and are all the free 

variablesin W. 

Until no transformation can be applied to SP . □ 

End. 

Note: W H has the form L\/\ … /\L m where L t is a literal. W, V and Wt are first-order formulas. 

定理 i 证明了算法 i 的可终止性和计算复杂度.这里 ， i _ 为表达式胃中的原子数目、连接符号数 
目、 “V” 连接符号数目、“3”连接符号数目 ' “ V ”连接符号数目 及“〜 ”连接符号数目之和，称为表达式胃的尺寸. 
若 cST % —个安全策略，则称 I 为^5^的尺寸， 

定理 1( 算法 1 的可终 止性 ) 对于任意给定的安全策略 M 算法1可在有限步内执行完毕，并且其转换结果 
是一个扩展型逻辑程序.设 c 57 冲•规则数目为 v ，“ v ” 连接符号数目为 m ，“ V ” 连接符号数目为 n , u = m a x {\ r \\ r ^ SPi,k 
为使得《彡2&的最小值，则最坏情况下，算法1总的转换次数不大于 v _2“+ m +«; 平均情况下，算法1总的转换次 
数不大于 v < m + A ?2 Li > ，因而具有较好的实用价值. 

证 明:设 4—哪为^57冲的任•规则，算法1应用于哑的转换运算为 I ；同时， z ■将 c 57 转 换为狀 ^ 

1) 若2■为转换运算①、转换运算②、转换运算④或转换运算⑩，则得到两个新规则，设为 A ,— 和 
A 十聯 i . 不难发现,1—\% 2 1<1馨 ； 

2) 若 z ■为转换运算③、转换运算⑥或转换运算⑨，则得到一个新规则，设为 Ai — 难发现， 

因而1奶<1別； 

3) 若 r 为转换运算⑧，则得到一个新规则，设为烏，容易看出 , IM ^\ I = I _ .但转换运算⑧后面紧跟着 
的转换运算一定是转换运算⑨，设其转换结果为 A 2 <- M ^ 2 ，容易看出， IW 说 l < IM ^ il = l _; 

4) 若 z ■为转换运算⑤，则所得结果一定为一个新规则，设为 A,— 灰说 ，容易看出， 1撕说1=1_ .若无后续转换 
运算可作用于$则转换结束，即算法1讨在有限次转换运算后 终止; 否则，在所有后续转换运算中， 
转换运算⑤最多出现 m -1 次.这是因为，每应用一次转换运算⑤，都会使得原 _“ v ” 连接符号至少 
减少一个，而所有其他的转换运算都不会引入‘. V ”连接 符号； 

5) 若 r 为转换运算⑦，则得到一个新规则，设为 A ,— 撕质 ，容易看出，.但转换运算⑦后面紧跟 
着的转换运算一定是转换运算⑩，设其转换结果为 A 2 <- W # 2 和 A 3 — ，并且 IW # 2 I 彡 IW # J -1= I _， 
1撕说1<1^\1-1=1_ .同样，若无后续转换运算可作用于/尸„则转换 结束; 否则，在所有后续转换运算 
中，转换运算⑦最多出现 》_1 k .这是因为，每应用一次转换运算⑦，都会使得原^57*^””连接符至少 
减少一个，而所有其他的转换运算都不会引入“ V ”连接符号. 

综合上述步骤 1) 〜步骤 5) 的分析可知，转换运算 z •要么使得 IW 识1<1_(即转换得到的新规则的尺寸小于原规 
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则的尺寸)，要么使得由于使得 Ic 5^= lc 57? 的转换运算 z •在整个转换运算序列中最多出现 m + n 次，因而 
对于任一安全策略 M 算法1 一定可在有限步转换运算后将其转换成逻辑程序#并终止.如果#不是逻辑程 
序，则#中一定存在可以继续应用转换运算的规则，因而算法1还没有终止，这显然是矛盾的. 

在极端情况下，算法1选择的转换运算序列中的每个转换运算都使一个尺寸 为;' 的规则分裂为尺寸为《_-1 
的两个规则.因而，针对每个规则的转换运算序列最大长度不超过，转换 结果# 中规则数目最多不 
超过 V . M 个.在现实世界中，这种极端情况极其罕见，因而转换运算序列长度的平均值更具有参考价值. 

在平均情况下，算法1针对每个规则选择的转换运算序列中的每个转换运算，使一个尺寸为 Z 的规则转换成 
尺寸为 Z -1 的另一个规则，或分裂为尺寸为 D /21 的两个规则，因而总的转换次数不超过 

v.(« + 2 .备 + 2 2 - 争 + ... + 2 k - 吾 ) 矣 v. 〔“ + 2.f + 2 2 . + … .条 =v-(u + k-2 k — 1). 

这个值非常接近于 (々+ l ).«. v . □ 

由下述引理1〜引理4可以看出算法1中转换运算①~转换运算@的正确性. 

引理 1. 下述表达式在二值逻辑中是恒 等式： 

I T {~~V)^I T {V), 

I T (~ (VaW)) = l T (~ Vv~W), 

I T (~ (V V W)) = / t (~Va~W), 

IAV XI - V X W ) ^ IA ~ 

IA ~ ^ x ,^ xW ^ IA \- 3 x n (~ W )), 

I^(v t ^ W ) = I r (Vv ~ W ). 

证 明:利 用定义 3 即可完成证明.设 2 为 1 值解释. 

(1) ^(^)； 

(2) l T (- ( VAW )) = l -/^( yAlV ) = l - min (/^( V ),/^( W )) = max {\-1 T { V \\-1 T ( W )) = I T {~ Vv ~ Wy , 

(3) l T {~ (V vVK )) = l - I z { VwW ) 三 1- 010x (/ 100 ,//( HO ) 三 min ( l -/^( y ), l -/ T ( W )) = I t {~ V)a l T (~ W ); 

(4) I T (~ 3 X (~ %) 蠢 I _ / 爲 (〜 W )) 三 1 — max {/ X (~W l Xw ) :c e I^(~W \ x ^ c ):c e H L ^} 

三 min{l - (1 — I T (W l xw )) ： csH^}^ min{/^(W : c e <} ^/ X ( V X ( W )); 

(5) I T (~ \/ x W) ^1- I T (y x W)^l~ min {/ l Xw ) :ceH^}^ max { l - I T {W \ Xw ) :csH^} 

三 max {/,(~ W l xw ) :cbH^}^I t ( 3 x (~ W)). 

(6) 由逻辑连接符的含义可立即得到沣乙 ( Vv ~ W ). □ 

引理 2.设 值解释.速 r 的语义，当且 

仅当# n 和『 2 的语义. 

证 明:“ ，”的 证明: 不妨设 A 为一个基本原子. 

(1) 若 Ae^TSP / T ( A ) = 1，由乙的定义可知， Ij ( A )^ I r ( W H aVaW t ) J. /^( A )> I ^( W H aW aW t ). 由定义 
3 可知，心⑷ = l ，^( r 2 ) = 1，因而茂 n 和 r 2 的 语义； 

(2) A^m AgJ 2 ： 即 //( A ) = ^ ■.由于雄 ，' 的语义，则由定义3可知， a (V v IV )八 W r ) 彡因而 
lj ( W „), 乙 ( W r )，乙 (V V W ) 中必有一个不大于^ : 

a ) 若 Gd ) 矣去或 夂则 I T ( W H a V a W r ) 矣4且 I T { W H aW AW r ) 矣 

b ) 若 ^ ■且 > 去，即 MW „) = 1 且 MW r ) = 1, 则 
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lj{V vW ) = maxCOGO ，/!，)) 彡 

因而 4( V ) 彡丄且 / T ( W ) 彡 1，从而可得 aV aW t )^- KI t ( W h AWAW r ) 彡 i ; 

由上述 a ) 和 b ) 可知，乙 ( A ) 彡心(撕„ aVaWV ) 且心 ( A )> L ( W „ AWAW r ). 由定义 3 可知，乙(0_1, 
I T { r 2 ) = l . 因而 n 和;* 2 的语义； 

(3) 若 Ae _/^ P / i ( A ) = 0. 由于座 r 的模型，则由定义3可知， a (7 v ! V ) aMV ) = 0, 因而心(％)， 
乙0^)，心0/ vW ) 中必有一个为0: 

a ) 若 / i ( W „) = 0 或 / z ( W r ) = 0, 则 / i ( W „ aV aW t ) = 0 KI ^( W h aW ^ W t ) = 0\ 

b ) 若 I t { W h )* QS , O ( W r )*0, 则 7 X ( VvIV ) = max (/ X ( V ),/ X ( W )) = Q , 因而 J T ( V ) = I T ( W ) = 0 , 从而 
可得 a,V aW t ) = 0 KI ^( W h aW aW t ) = 0; 

由上述 a ) 和 b ) 可知，乙 ( A ) 彡 //(% aVaWV ) 且 //( A )>//( W „ AWAW r ). 由定义 3 可知， /!(/;>» 1， 

I T { r 2 ) = 1, 因而 q 和 r 2 的语义. 

“ e ” 的证明与 “3” 证明的逆过程类似，这里不再赘述. □ 

引理3.设 r . A <- W H A 3 x WAW T , r x '. A <^ W H aWI X mZ aW t ,MM Z 不在规则 r 中出现，為 〈 O 为三值解释.了 
Sr 的语义，当且仅当2是 n 的语义. 

证明 : M^r 的语义 <» // A ) 彡 I T { W H a 3 x W ^ W t ) 

«> /:⑷ S * min (/ 爲)， max{/;(W \ x ^ c ): ceH ^ }，/ 爲 )） 

<» /: ⑷彡 min (/ 爲 ) ，/:(W \ x ^ z ), IAW t )) 

⑷ 》/!(% AWI x „ z AW r ) 

« vi •/是 q 的语义. □ 

引理 4 .设 d—WWA 〜 3 x WAW r , n : A — %八~;^ 1 ，...，}^^1^，" 2 :；^ 1 ，...，：^>^3；^,去〈之，>为三值解释.这里， 
为新引入的元谓词，它不在表达式九1^,〜3；^及 Wj •中出现, K ，...，}^ 为 3 X W 中的全部自由变元.那么，座 r 
的语义，当且仅当了'=〈7;'》是 n 和 r 2 的语义.这里， 

丁 二 T ^ { P ( q，...，Q ) I Cj ,..., c ^ & Hjj , I ^ f (3 x W ) = 1}， 

尸 = 卞 u { p ( c i ，."’ c t ) I c 1 ,..., c k e , I m (3 x W \y lH>Cl __ t Y k H>c k ) = 0}. 

证明: “ 1 ” 的 证明: 由于％为0，显然 r ' n ，’=0 .容易验证 r 2 在了冲的真值为“真”，即 //,( r 2 ) = l .下面证明 
/ i. W = l .不妨设 A 为一个基本原子.由于 p 从是新引入的谓词，则由 T 的定义 可知： 

IA ^) = 1 t { A ) JA ^ h ) = IAW h ) J ^( W t ) = I t ( W t ), IA ~ 3 x ^) = ! A ~ 3 x W ). 

由于 A r 的语义，则 

(1) 若及£万即/1(4) = /1,(4) = 1，因而一定有//,04)彡0.0^八〜扒}%...，}；)八1^).由定义3可知， 
IA r i ) = l 即了是 n 和 r 2 的 语义； 

(2) 若如组 AgJ 2 ： 即乙⑷ = L ,( A ) = ^ ■.由于座 r 的模型，则由定义3可知, / t ( W „ a 〜 3 x WAW r ) 彡 
因而 I A W h ) J A W t ) J A ~3 xW ) 中至# -个小>或等于 | : 

a ) 若心0^//) < ■或 /^-( Wy ) ^ — ,]110~定有心，■或 z ' (^ r ) ^ ，因而~'定有 

/;, (W„ A ~ p(u ) 八 w r ) 彡每. 

b) 若心 0^) = 1 且 /i(W r ) = l ， 则 ^(~3 x M0 = /i.(~3 x H0 彡 4 ，即 /r(3 x W) = l —/i.(~3 x W ) ■.由 
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于 / T ,( r 2 ) = l ， 即 因而 l r {~ p { Y v ..., Y k )) = 1 - I ^,( p ( Y v ..., Y k )) ^ i 

即 /,,( W „ 八 ~ 州”..，。— ) 八 W r ) 彡去. 

由上述 a ) 和 b ) 可知， L ,( A ) 彡八〜 p ( U ) AW r ). 由定义 3 可知，心(0 = 1，即7是 n 的语义; 

(3) 若 AsJ 2 :即乙(4) = /^(4) = 0.由于茂 r 的模型，则由定义3可知，八〜 3 X W 八％) = 0,因而 
3 X W ) 中必有一个为0: 

a ) 若乙0^) = 0或 /^( W r ) = 0, 则-定有心.0¥„) = 0或^,0^) = 0,因而一定有 

I T ,( W H /\~ p ( Y v ..., Y k ) AW T ) = 0. 

b ) 若心 (％)关0_|/!0^)关0, IJIJ I T (~ ^ X W ) = IA ~ ^ xW ) = 0, ip I ^,(3 x W ) = l - I T , (- 3 x W ) = l . 由于 
/ x ,( r 2 )= l , ip / r ,( p ( U ))>/ T ,(3 x W )= l ， 因而 I T ，{- p ( y 1 ，|‘，* y )'% i &,( p ( y 1 _.，： F t )) = ojPJ r 
( W h a ~ p ( Y l ,..., Y k ) AW T ) = 0. 

由上述 a ) 和 b ) 可知， /^( A ) = / r ( W „ 八〜扒}；,...,&)八1^).由定义 3 可知,心,(0 = 1，即了 , 是〜的语义. 

综上所述，若凌 r 的语义，则是 n 和 r 2 的语义. 

“ e ” 的证明过程与“，”证明的逆过程类似，这里不再赘述. □ 

定理2说明，算法1在转换安全策略的过程中引入的新谓词^然向原安全策略的语义中增加了一些新的基 
本原子，但这对原安全策略的语义并不构成实质性的影响,因而是可靠的.定理3说明，算法1具有保持安全策略 
语义的能力，因而是完备的.由引理1〜引理4,容易证明算法1的可靠性和完备性. 

定理 2( 算法 1 的可靠性). 设^ -个安全策略经算法1转换后所得结果为为 cST 7 ' 
的一个三值语义， M 转换过程中由转换运算⑩新引入的所有谓词构成的集合，则—个三值语 
义.这里，; 7" = T '-{ p ( J )\ pe A /~, p ( t ) e T '},^ = J r '-{ p ( t )\ pe A /~, p ( t ) e 

证明 ：由 W =〈 r 尸 > 为三值模型可得 ， r ' n 尸=0，容易看出 r g 因而 5 Px ^0. 

由引理 1- 引理4可直接推^出，_的每个规则在 W =〈 f 沖的真值都为真. 

由于集合7和'仅是从厂和 '' 中去除了那些对汾冲规则的真值赋值不会产生影响的基本原子(这是因 
为这些原子所对应的谓词都是在转换过程中新引入的)，因而_的每个规则在乂冲的真值也都为真. 

综上所述，71-/=〈^)是_一个三值语义. 口 

定理 3( 算法 1 的完备性). 设4安全策略，〉为酌三值语义，^57 经算法 ^ 转换后所得结果 #'， 
则存在 y ! V=〈r 其中 ，， d Hf , ytY ' 是狀' 的三值语义. 

证明: 由定理1可知，算法1可在有限步内转换完毕.设算法1应用于^、的转换次数为且这些转换运算 
构成的序列依次为.设^57经过前；_-1次转换后所得到的安全策略记为# q ，令4=^,乂^=〈无乃构 
造方法如下 所示： 

1) 若 r ,_ 为转换运算①〜转换运算⑨，令.由引理1〜引理3可知，若 ytTU 是的语义，则是 

c 57? 的 语义； 

2) 若 r ; 为转换运算⑩，则被转换的规则为 AeW H A 〜3 x WAW r ， p , 及为新引入的 I 元谓词，：^，...，心为 3 X W 中 

的全部自由变元.令 yl ^_= 〈筇乃，其中， 

= ^~ i -\ u ( P ,( c p --' c i ) I c l ,..., c k e ，/_^(3 x W ^ H > q H > Ct ) = 1}， 

J ^= J c ；_ l yj { p i ( c l ,..., c k )\ c 1； ..., c , e // c f , I m (3 x W 1；,^...., yi „ Ci ) = 0}. 

由引理 4 可知，若 ytYq 是的语义，则％是 # 的语义. □ 

定理2和定理3保证了通过扩展型逻辑程序的良基语义定义安全策略语义的合理性. 

定义 7( 安全策略的良基语义 \设^57%安全策略，^57经算法1转换后所得结果为 ，= m % SP ’ 
的良基语义， M 转换过程中由转换运算⑩新引入的所有谓词构成的集合，则称 Kf 〉 是良基语义. 
这里’ 
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T = 7~' ~{p(t) \ p e A/~,p(t) e T'},^ = -{p(t) \ p e A/~,p0) e 

4 安全策略语义查询与验证 

本节讨论基于良基语义的安全策略语义查询问题，进而构造出安全策略决策算法和验证算法.首先讨论查 
询目标为 — P ( F ) 形式的表达式(即基本查询目标)时安全策略语义查询问题，并给出相应的算法，该算法可应用 
于安全策略决策等 方面; 其次，讨论查询目标为一阶逻辑表达式(即复杂查询目标)时安全策略语义查询问题，并 
给出相应的算法，该算法可应用于安全策略验证等方面. 

4.1 安全策略基本查询及安全策略决策 

设^安全策略,^为 cST 酌良基语义， p / n 为_的一个谓词， 〆 ?)为 n 元原子.那么存在哪些《元基本置 
换两 I 以使得 p (? 沖为 M 于 yM 的逻辑结果呢?这个问题称为安全策略基本查询问题 4 本节基于算法1给出了 
一种安全策略基本查询问题的求解方法，其基本思想如算法2所示.这里为 SLG 算法返回的查询结果 . SLG 算 
法和 XSB 系统的相关信息可参考文献 [20,21]. 

(1) 如果 i ?=0, 则说明不存在基本置换使得原子扒?)在^57拍良基语义中成立.由于本文认为良基语义是 
扩展型逻辑程序的正则语义，因而可以断言 , 3( P ( F )) 在_是不成 立的； 

(2) 如果则说明存在基本置换使得原子 p ( F ) i _ 勺良基语义中成立，因而可以断言 ,3( p ( F )) 在# 
中是成立的； 

(3) 如果 XSB 系统返回 Floundering 警告，则无珐判定 3( p ( f )) 在 cST 中是否成立 • 

算法 2. 安全策略语义基本查询算法. 

, XX 气 

即 I ~ OT i 


定理 4( 安全策略基本查询算法的可靠性和完备性). p (卩 )0 是 M 目对于的逻辑结果，当且仅当 p (7)6> 是 
f 相对于其良基语义 ylV ' 的逻辑结果. 

证明: 由算法1的可靠性(定理 2) 和完备性(定理 3) 可直接得证. □ 

安全策略语义基本查询算法经过简单变换后可处理 — P ( F ) 形式的查询目标，主要用于策略> 决策# 方面. 

4.2 安全策略复杂查询及安全策略验证 

安全属性不变式通常是比较复杂的一阶逻辑表达式，安全策略语义基本查询算法只能处理形式较为简单 
的(仅含有一个原子的)查询目标，因而无法满足安全策略验证的需求.为 了解# ^全策略验证问题，本节首先给 
出了将安全策略复杂查询问题转化为安全策略简单查询问题的算法(参见算法 >3), 并且证明了该算法的可靠性 
和完 备性; 其次，利用安全策略语义基本查询算法构造出安全策略复杂查询算法，该算法主要用于安全策略验 
证，因而本文称其为安全策略验证算法.由于安全策略验证算法是基矛安名策略语义基本查询算法的，因而安全 
策略验证和安全策略决策使用相同的语义，可有效避免本文引^中提到的验证失效等问题的产生. 

算法 3. 安全策略复杂查询转换. 

QueryTrans {{ SP , Q )) 

SP '= SPkj { ans ( X u ... ， X „)<— 2 } ; 

Return ( PolicyTrans ( SP ')， ans ( X l ，..., X „)} 

End . 

设^57%安全策略,为 cST 酌良基语义， 2 为不含的任意形式的一阶逻辑表达式，兄为 2 中的全部 
自由变元，那么存在哪些《元基本置换可以使得 (2 为及关于 X 的逻辑结果呢?这个问题称为安全策略复杂查询 
问题，记为〈次0.设 ansln 为一个未在及冲出现过的 n 元谓词符号,则算法3可以将〈现0转换成另一个等价 
的安全策略基本查询问题〈狀 "澗 这里，狀"为扩展型逻辑程序.定理5证明了算法3的可靠性和完 


安全 策略# 




PolicyTrans(SP) 


XI 

SLG 算法 
(XSB 系统） 
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备性.定理 6 证明了算法 3 的可终止性. 

定理 5( 算法 3 的可靠性和完备性). 在算法3中 H 〈之厂)是酌良基语义，令 
T ' = T yj [ ans ( c v ..., c r ,)\ c l ，: , I T ( q \ x ^ CiXnW> ) = l }, 

， =/ u { a ' M ( Cl ，…， c „) I q ，".， c „ eHf , I T (q l Xl „ q ) = 0}， 

则有： 

(1) ylV '= 〈叉是扩展型逻辑程序的良基 语义； 

(2) I m (3{ Q )) = 1 当且仅当 I M ，{3{ ans { X l ,..., X n ))) = \. 

证明:(1)由文献 [17] 的定义 3.3 及，'和，'的构造方法可直接得出是#'的良基语义，即上面的 (1) 成立. 
(2) “二”的证明 :由于 W 是的语义，则 I M ，( ans ( X v . rn X n ) — 0) = 1.若 I M (3( Q )) = 1，易知 I M ，(3( Q )) = l W 
存在基本置换 6!={ X 1 B ai ，...， X „4 a „} 使得由定义3 可知： 

I ^ iansia ^ aJ )^ I M ,(Q l XiMOi … Xn ^ a J . 

SP I M .( ans { a v ..., a n )) = I M .(3{ ans { X l ，…， ))) = 1. 

反之，若 I M ,(3( ans ( X v ..., X n ))) = 1, 不妨设 /.杯, (肌?(叫 ，…, aj ) = 1 .这里 ， e \ 由于 ⑻, 仅能 
由规则 ans { X u ..., X„)^Q 推导出来，并且 M '是狀 ' 的良基语义，因而 I M ,(Q l XlM(!l ,..., x ^ a „) = 1. 由 M '=〈 f '〉构 
造方法可知， I m (Q l Xl % Xn % ) = 1，即 /^(3(0) = 1. 

“ e ” 的证明与“，”证明的逆过程类似，这里不再赘述. 口 

定理 6( 算法 3 的可终止性). 算法3可在、有限步内转换完毕，其总的转换次数是多项式级的. 

证明: 该结论是定理1的直接推论. □ 

至此，本文给出了将安全策略转换成扩展型逻辑程序及将安全策略查询问题转换成扩展型逻辑程序查询 
问题的算法，并且证明了这些算法在良基语义下的可终止性、可靠性和完备性.下面将利用这些结论构建安全 
策略验证算法.为了使验证算法具有足够％的效率，本文 假设： 

① 安全策略中每个规则 A — 胃的胃中不含有任何函数 符号； 

② 待验证的安全属性都可以表示成一个不含逻辑连接符“―”和函数符号的一阶逻辑表 达式； ~ 

③ 为了保证安全策略验证过程的可靠性和完备性，每个待验证的安全属性都是一个 non - Floundering ’ 查询. 
对予那些无法表示成 non - Floundering 查询的安全属性，则不在本文考虑的范围之内. 

安全策略验证算法的结构如算法4所示.在该算法中，首先利用算法3,将安全策略 MB 待验&的安全属性 
不变式2构成的安全策略复杂查询问题〈次2〉转换成安全策略简单查询问题〈狀由于於"是 
扩展型逻辑程序，是基本查询目标，因而 XSB 系统可高效地计算它并返回查询结 果尺： 

(1) 如果 尺=0， 则说明不存在基本置换使得安全属性不变式 G 在及拍良基语义中成立.由于本文认为良 
基语义是扩展型逻辑程序的正则语义，因而可以断言，3(0在_是不成 立的； 

(2) 如果则说明存在基本置换使得2在及柄良基语义中成遗因而 3(2) 在^5^中成立； 

(3) 如果 XSB 系统返回 Flo 皿 dering 警告，则说明无法判定 3(® 在是否成立. 

算法 4. 安全策略验证算法. 


安全属性卩 




_ SP” 


安全策略 # ]=^ 

QueryTrans(SP,Q) 

_ 

SLG 算法 
(XSB 系统） 



ans(t) 


定理 7( 安全策略查询算法的可靠性和完备性). 设柏良基语义，则3(0是^57湘对于逻辑结果， 
当且仅当 是# "相对于其良基语义 yl - T 的逻辑结果. 

证明: 该结论是定理5的直接推论. □ 

至此，我们己经完成了安全策略语言的设计、安全策略语义的定义及安全策略语义查询算法和验证算法的 
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设计.接下来，我们将这些研究成果组合起来，形成一个切实可用的安全策略管理框架 WF - SPevf . 

5 WF - SPevf 安全策略管理框架 


WF-SPevf 的整体架构如图1所示，可在统一的安全策略良基语义下实现以下主要 功能： 

• 安全策略表达:安全管理员根据系统安全需求，通过安全策略语言 SPL 制定安全策略，并存储到策略 
库中； 

• 安全策略查询:信息系统根据具体应用场景形成基本查询目标提交给 WF - SPevf . WF-SPevf 根据安全策 
略及查询目标，通过安全策略语义基本查询算法计算出查询结果并反馈给信息 系统； 

• 安全属性表达 :安全 专家根据系统特性提炼出系统应具备的安全属性，然后通过安全策略语言 SPL 表 
达出来，形成安全属性不变式.值得注意的是， WF-SPevf 使用相同的周言表达安全属性和安全策略，这是 
WF-Spevf 与其他安全策略验证工具的一个显著不 同点； 

• 安全策略 验证: WF-SPevf 根据安全策略和安全属性不变式，自动地验证两者之间的符合性.如果安全策 
略满足安全属性不变式，则验证 通过; 否则，安全策略中存在错误或不足.此时, WF-SPevf 提供完整的出 
错原因，以便于安全管理员调试安全策略.值得注意的是，安全策略验证和安全策略查询使用相同的语 
义，这是 WF-Spevf 与其他验证技术最重要的区别.由于安全属性不变式本质上是一阶逻辑表达式，因此 
WF-SPevf 还可用于其他能够表达成一阶逻辑表达式的属性判定问题，如策略冲突检测等. 




安全策略语言 SPL 


C 5 全管 sQ 錢从业人员 < 3全专 


信息系统 

可能拥有多 
个安全策略 


安全策略 

决策查询 

_ 3 

(输出查询结果） 


安全策略 


/安全属性 


Policyi 


Policy。 


安全属性1 


安全属性2 


JII 安全策略& 


安全策略转换 
{ Policy - Trans { P )) 



安全策略复杂查询转换 
( Query - Trans (( SP , Q ))) 


U 安全 策略& 


431 ( SP ", ans ) 


安全策略语义基本查询算法(算法 2) 


(输出验证结果) 


Cb- 


Fig.l Security policy framework of WF-SPevf 
图 1 WF-SPevf 的安全策略框架 


在 WF-SPevf 中，安全策略语言、安全策略语义查询算法和安全策略验证算法构成一个有机的整体.它们在 
统一的语义下对外提供策略表达、策略决策、策略验证等服务 . WF-SPevf 具备强大的描述能力、高效的策略 
决策算法及强健的策略验证能力.与现有的安全策略框架相比，具有鲜明的特色.因此有理由相信， WF-SPevf 可 
为管理人员提供快捷、方便和易用的安全策略管理服务. 

下面通过实例说明 WF-SPevf 的使用方法.设信息系统中存在由下列规则构成的信息流安全策略 [22] : 

规则 1. 对于任意给定的用户 [/ 和文件 F (每个文件至少具有一个祖先目录)，如果 F 的安全级别不支配[/ 
的安全级别，同时至少有一个管理员允许 C / 读取 F 的所有祖先目录，且没有管理员禁止读取 F 
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的任一祖先目录,则允许 C / 读取 F . 

规则 2. 对于任意给定的用户和文件兄如果 C / 的安全级别不支配 F 的安全级别，则允许 t / 写尺 
规则 3. 系统中已有的实体诉户或文件成其安全级别分别为⑺凡仿⑷仴⑷私⑷加地⑹冰其中义为 
文件为用户. 

规则 4. 安全级别力, M , e } 之间的支配关系如图 2( a ) 所示,它们构成格. 

规则 5 . 文件夹 r 为文件 / i « i «3 的祖先，且管理员 cw /叫 和授予用户 & 和办读取文件夹？的权限. 

© 二/ © 

© 

(b) Z 不允许出现该信息流 ( 箭头表示信息流向） 



(c) 在 # 查，到一条不安全信息流路径 ( 箭头表示信息流向） 

Fig . 2 An insecurity information flow in security policy P 

图 2 安全策略 / 中安全级的构成及不安全的信息流路径 

(1) 用 SPL 表示安全策略 

文献 [2-8] 中提出的安全策略语言不支持量词，无法简单地表示上述安全策略.然而， SPL 可简单地将上述安 
全策略表示成下列 形式： 

R x : permit(U,F,read ) <— secLevel (f/, ) a secLevel(F,L f )a - Ly < L f a 彐 a 

3 z \f 0 [(authoz(U,0.read,Z )a - 3 Z ， deny(U,0,read,Z')) ^ ancestor(0, F)] 

R 2 : permit(U,F.write) <— secLevel (t/,), secLevel (F,L F ) ，- L F < Ly 

D x : a< b 
D 2 : a<u 
D 3 : b<d 
D a : d < e 
D 5 : u< e 

D 6 : X<Z<^X<Y,Y<Z 

其中 , A 对应规则 l，/? 2 对应规则 2,0(： 6 对应规则 3,ZVD 6 对应规则 4, 五 广 五 6 对应规则 5.permit^,ancestor/!, 
authen/2,authoz/4,deny/4,secLevel/2 和 </2 都为谓词符号，表达的含义是不言自明的. 

(2) 安全策略决策 

判断尸是否允许^读取/ I 的过程如下(参见算法 2): 首先，利用算法1将/^转换成扩展型逻辑程序尸彳然后，利 
用 XSB 系统评估查询〈尸， perm 邮 lt /\ ，舰 必〉，即可获得最终的判决结果. 

利用算法1转换/中&的过程如下所示 :连续 3次应用转换运算⑨后，&可被转换成公式 (4) 所示的 规则： 
permit(U , F,read) <r- secLevel (f/ ,) a secLevel(F,L f )a 〜 < L f a ancestor{0,F) a 

\/ 0 [(authoz(U,0,read,Z )a - 3 z ,deny(U,0,read,Z r )) ancestor(0, F)] 


P -- 


Cj : secLevel(f v b) 
C 2 : secLevel(f 2 ,u) 
C 3 : secLevel(f 3 ,d) 
C 4 : secLeveliSy^d) 
C 5 : secLevel{s 2 ， u) 
C 6 : secLevel(s 3 ,a) 


E { : ancestor(t, j\) 

E 2 : ancestor(t ， f 2 ) 

E 3 : ancestor{t,f 3 ) 

E 4 : authoz(s l ,t,read,adm x ) 
E 5 : authoz(s 2 ， t ， read,adm 2 ) 
E 6 : deny(s 3 ,t,read,adm 3 ) 



(a) Z 在谓 词 — 上 构成格 ( 箭头表示支配关系 ) 


© 中国科学院软件研究所 http :// www. jos. org.cn 







包义保 等: 基于良基语义的安全策略表达与验证方法 


925 


应用转换运算⑦，公式 (4) 所示的规则可转换成公式 (5) 所示的 规则： 

permit(U ,F , read) <— secLevel {JJ ,Ly) a secLevel(F ,L f ) a 〜 < L f a ancestor (O, F) a 

〜 [ 〜 ((authoz(U,0,read,Z )a - 3 Z ，deny(U,0, read,Z')) ^ ancestor(0,F))] 

应用转换运算⑩，公式 (5) 所示的规则可转换成公式 (6) 和公式 (7) 所示的两个 规则： 

T\’.permit(U，F，read)lSecLevel(U ,Lu)ASecLevel(U ,Lu)a 〜 L(j~<L F /\ancestor(0，F) 八〜 p(U ,Z) (6) 

p{U ,Z)<r-3o[^{{ciuthoz(JJ,0 ,read,Z)A3z'deny{U ,0 ,read,Z'))^ancestor{0 ,F))~\ (7) 

已经没有转换运算可应用于公式 (6) .应用转换运算⑨，公式 (7) 所示的规则可转换为公式 (8) 所示的 规则： 

p(U,Z)< — ((authoz(U ，0 ，re ad ,Z) a 3 z 'de ny(U ,0 ,re ad，Z f )) h ance s to r(0，F)) ( 8 ) 

应用转换运算③，公式 (8) 所示的规则可转换成公式 (9) 所示的 规则： 

p(U,Z)< — (authozi U,0,read,Z)A3 Z 'deny( JJ ,0 ,re ad,Z'))Aance stor{0 ,F) (9) 

应用转换运算①，公式 (9) 所示规则可转换成公式 (10) 和公式 (11) 所示的两个 规则： 

T 2 :p(U,Z)< — authoz(U,0,read,Z)Aancestor(0,F) (10) 

p( U,Z)<r-3 Z 'deny( U,0,read,Z')Aancestor(0,F) (11) 

已经没有转换运算可应用于公式 (10) .应用转换运算⑨，公式 (11) 所示规则可转换成公式 (12) 所示的 规则： 


Ty.piJJ，Z)<—deny(U ,0 ，read,Z’） 八 ancestor(0，F) ( 12 ) 

己经没有转换运算可应用于公式 (12), 转换过程结束，因而&被转换成 3 个扩展型逻辑程序规则 
最终，算法1将内 t 换成扩展型逻辑程序尸 

将难换成尸后，利用 XSB 逻辑程序查询引擎评估查询 〈尸， pernH ' rh / i ，似 《/)〉，查询结果集为空集，具体的查 
询评估过程参见文献 [20,21]. 这说明,/不允许&直接读取/ 1; 如图 2( b ) 所示. 

(3) 安全属性验证 

；^是一个信息流安全策略.从信息流的角度来看，为了保护机密性，高安全级别客体中的信息应无法流向低 


安全级别的客体，即/应该能够满足 SPL 安全属性不变式2: 

Q = V 0]?Lli02)L2 (- {canFlowTo(O x , 0 2 ) a secLevel^O^I^) a secLevel(0 2 ,L 2 ) a L 2 < L,)). 

这里，安全属性不变式 g 表示“高安全级别客体中的信息应无法流向低安全级别的客体”.为了是否 
满足 a 需要向原安全*策略/冲加入下列两个用于刻画信息流向的 规则： 


V x : canFlowTo{O x ,0 2 ) <— permit(S ， O v read),permit(S,0 2 ,write), 


V 2 : canFlowTo{O x , 0 3 ) <— canFlowTo{O x , 0 2 ), canFlowTo(0 2 ,0 3 ), 

其中，规则％表示，对于给定的用户 S 、 客体(^和0 2 ，如果 S 能够读取0,，同时 S 能够向0 2 中写入信息，则 o , 
中的信息能够流向 o 2 ; 规则 v 2 表示信息流向具有传递性.显然，将％和 v 2 加入沖#会改变内 S 有的安全属性. 
令;验 证尸是 否满足2的过程如下所示(参见算法 4): 


首先，利用算法 3 将复杂查询 〈尸 ",0 转换成基本查询 top〉. 由算法 3 和算法1容易得到扩展型逻辑程 
序巧 — 其中,和 P 是在转换 〈广 '，®的过程中新引入的 0 元 谓词； 

P flow = PolicyTrans{P" u [tmp < — Q}) 


P'u{V v V 2 }u 


tmp < — p 

p <— canFlowTo{O v 0 2 ) a secLevel(0^1^) a secLevel(0 2 ， L2) aL 2 <L x 


然后，利用算法 2 评估查询如果尸"能够满足2,则语义查询〈；2^„，，加 p 〉 的结果集应该为空集.然而， 
算法2却能够查询到-条规则序列(当 XSB 系统工作于调试模式时，能够跟踪查询过程中所调用的规则序列). 
相应地，由这条规则序列可得到-条信息流，如图 2( c ) 所示.在这条信息流中，信息能够从安全级别为的客体/ 3 
不安全地流向安全级别为的客体.由于$全级别 d 支配安全级别4因而/存在安全隐患. 

由上例可知， WF - SPevf 过以高效地验证安全策略是否满足某个查询,进而判定是否满足某个安全属性. 
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6 结论 

本文首先定义了一种基于一阶逻辑的安全策略语言 SPL . 它不仅兼容现有主流的安全策略语言，还可以表 
达具有非单调和递归等高级特性的复杂安全 策略; 其次，本文通过安全策略转换算法(算法 1) 将 SPL 安全策略转 
换成扩展型逻辑程序，进而利用扩展型逻辑程序的良基语义给出了 SPL 安全策略的 语义; 再次，本文利用逻辑程 
序理论构造出安全策略语义基本查询算法(算法 2), 可用于处理简单查询目标，主要应用于安全策略决策.在此 
基础上，本文给出了将安全策略语义复杂查询问题转换成安全策略语义基本查询问题的算法(算法3)，进而构造 
出安全策略验证算法(算法 4) .显然，安全策略验证算法和安全策略决策算法基于相同的语义，有效地保证了安 
全策略验证的有 效性; 最后，本文将上述研究成果组合起来，形成安全策略管理框架 WF - SPevf . 总体来说， 
WF - SPevf 可在统一的良基语义基础上实现安全策略表达、语义查询和安全策略验证，具有强大的策略描述能 
力、高效的策略决策能力以及可靠的策略验证能力，可应用于各种类型的策略管埋系统中. 
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分布式蠕虫检测和遏制方法的研究 

陈博，方滨兴，云晓春 

( 哈尔滨工业大学计算机网络与信息安全技术研究中心，黑龙江哈尔滨 150001) 

摘要： 提出了一种分布式蠕虫遏制机制，它由两大部分 组成： 屮央的数据处理屮心和分布在各网关的感知器。 
屮央的数据处理屮心接收感知器的检测结果，并统计蠕虫的感染状况。分布在各网关的感知器监测网络行为并检 
测蠕虫是否存在。若检测到蠕虫的存在，感知器根据蠕虫的疫情状况，启动 ft 适应的丢包机制。最后，实验结果 
证明了该遏制系统能够有效地遏制蠕虫的传播，保护网络的 运行； 尽可能小的干扰正常的网络行为。 

关 键词： 蠕虫检测；网络 监测； 适应 遏制； 连接度 
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Approach to early detection and defense against internet worms 

CHEN Bo , FANG Bin - xing，YUN Xiao-chun 

(Research Center of Computer Network and Information Security Technology, Harbin Institute of Technology, Harbin 150001,China) 


Abstract: A distributed defense mechaiiisiii was proposed . Hie main task of defense mechamsm was to quickly detect worm 
attacks and response to constrain tlieir propagation . Hie defense mechanism was composed of two parts : a date processing 
ceiitre ( DPC ) and distributed sensors for defending against worm attacks . DPC is responsible for receiving the result of each 
distributed sensor and computing the number of infected computer . Tliese distributed sensors monitor the network and detect 
worm . Once a worm attack was detected , a chopping packet mechanism is used so that the worm propagation was con - 
stiained , and the number of interference with normal activity is minimized Tlie experimental results prove the robustness 
and efficiency of the proposed defense mechanism . 

Key words: worm detection ; network monitoring ; adaptive constrain ; connection degree 


l 引言 

随着互联网应用的深入，世界各国对 Internet 
的依赖越來越高。-旦网络瘫痪，将会造成巨大的 
经济损失，因而网络蠕虫被认为是 Internet 上最大 
的安全威胁之一。1988年 Morris 蠕虫爆发，几天 
之内6 000多台的网络服务器被感染而瘫痪，损失 
超过1 000万美元。2001年7月19日 ， Code Red 
蠕虫爆发，9小时攻击主机达25万台之多，造成超 
过20亿美元的损失。2003年8月11日 ， Blaster 
蠕虫爆发，3天之内就感染了 20万台电脑。所以， 


现在越来越多的人们对网络蠕虫的检测和遏制方 
法的研究投入了巨大的精力。检测未知蠕虫最直接 
的方法是利用异常检测系统。到目前为止，在异常 
检测领域中，已经产生出许多成熟的算法和系统， 
例如 IDES [1] 、 NIDES 【 :] 和 EBayes [3] 等异常检测系 
统。异常检测主要检测黑客的入侵，虽然蠕虫的爆 
发和黑客的入侵都会引起流量的异常、主机行为的 
异常，但是，蠕虫传播和黑客入侵是有本质区别的。 
黑客攻击是一种复杂的攻击行为，它通常有-个特 
定的目标和一些特定的攻击者，很难找到-个好的 
模型来描述黑客的攻击行为。而蠕虫传播模式很简 


收稿日期： 2006-08-09； 修回 日期: 2006-12-19 
基金 项目： 国家 A 然科学基金资助项目 (60403033) 

Foundation Item: Hie National Natural Science Foundation of Cliina (60403033) 
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单，即所有感染了蠕虫的主机不停地向网络上其他 
机器发送病毒副本来感染它们。因而，简单的利用 
异常监测的方法来检测未知蠕虫不是非常合适的。 
虽然，文献 [4] 提出了一种蠕虫的动态隔离防御算 
法，但是它仅仅提出了 • •种大体框架，并没有进行 
实践。因而，目前为止还没有一个非常有效的系统 
或者算法能够很好的遏制蠕虫的传播。本文充分考 
虑了蠕虫的传播特点，提出了一种自适应的蠕虫检 
测和遏制的新方法。理论分析和试验结果表明，该 
方法能够快速发现未知蠕虫，并能根据疫情，自适 
应的调节遏制率。这保证，即使误报率很高，也能 
够有效地遏制蠕虫的传播，并保证对正常网络行为 
的干扰非常小。 

2蠕虫遏制系统结构 

图1描述了 -个简 单的蠕虫检测和遏制系统的 
结构示意图。此系统由中央数据处理中心 （ DPC ) 
和分布在各个子网的感知器构成。中央数据处理中 
心接受感知器的检测结果，并统计感染蠕虫的主机 
数量，然后数据处理中心把所得到的统计结果送给 
各个子网上的感知器。感知器主要用来检测是否有 
蠕虫攻击的存在并且采取一定的策略遏制蠕虫的 
传播，其结构如图2所示。它可以分成4大 部分： 
网络监测部分、蠕虫检测部分、计算蠕虫的攻击状 
态部分、自适应丢包策略部分。 



图 1 通用的蠕虫监测和遏制系统 



m2 监测点的结构框图 


3网络监测算法 

蠕虫被定义为可以传播自我副本，并且能够 
在远端机器上执行的代码。它是一种智能化自动 
化的攻击载体。它会扫描和探测网络上存在服务 
漏洞的节点主机，一旦渗透成功会自我复制许多 
副本，通过局域网、国际互联网或者电子邮件从 
••个节点传播到另外一个节点 [5] 。图3描述了蠕 
虫的攻击过程。从图3可以知道蠕虫的一次攻击 
过程可以划分为3个 阶段： 1) 获取目标 阶段； 2) 
提升特权 阶段； 3) 感染阶段。在获取目标阶段， 
N 络蠕虫通过扫描整个互联 网以选 择一个特定的 
IP 地址进行感染。迄今为止，蠕虫主要用以下几 
种扫描策略：随机扫描、加权随机扫描、顺序扫 
描和基于目标列表的扫描。 


Wliile ( l ) 

{ 

h = ScaiiAiidGetTargetO ； 
a cquiirePrivil ( li , e ); 
if can’t acquire privilege then 
continue ; 
infect ( li ); 

if can’t infect then 
continue ; 


图 3 蠕虫的攻击过程 

由于蠕虫需要扫描网络來选择被攻击目标， 
所以可以推知感染蠕虫的主机具有以下2个特 
征： 

1) 连接的频繁性在一定的时间内，感染蠕 
虫的主机会试图连接大量的不同 IP , 扫描它们是 
否具有漏洞。图4列出了几种典型的蠕虫在 30 s 
内的连接状况。图5是随机抽取的正常主机在早 
上、中午、下午的 30 s 连接状况。从图4和图5可 
以很明显 得出： 在相同时间片内，感染网络蠕虫的 
主机所产生的不同连接数目远大于正常主机的不 
同连接数目。 

2) 数据包目的端口的相似性由于蠕虫发包 
速度远远大于正常用户行为的发包速度。所以，当 
某台主机感染蠕虫时，其发送的数据包的目的端口 
将具有高度相似性。 
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(a)Blaskr 蠕虫的连接状况 （b)Nimda 蠕虫的连接状况 


图4几种典型蠕虫的连接状况 
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(c> 晚 h8 点钟的连接状况 


图5正常主机的连接状况 


定义 1连接度在 •个 时间段/内，若 主机/ 
发送数据包给》个具有不同地址的主机，则称/«为 
主机/ 相对于时间段 < 的连接度。 

从以上分析可以 知道： 一个主机感染蠕虫后， 
在同一个时间片内，感染蠕虫主机的连接数目远远 
大于正常主机的连接数目。也就是说，感染蠕虫主 
机的连接度远远大于正常主机。所以可以设计如下 
的监测算法來监测网络状态。 

网络上的主机 i 有3种网络状态：1 ) 发送数据 
包； 2) 接收数 据包； 3) 空闲状态。 定义 -•个时间 
序列彡0}。 fF ( t)=l 表示主机 i 在/时刻正 
在发送数据包，『(0=0表示主机 i 在/时刻处于空 

闲状态或者接收数据包的状态。定义一个 IP 地址集 
此集合表示主机 i 从，,到/ 2 

时间段发送的数据包的目的地址集合。再定义符号 
为 t 时刻与主机 Z 有联系的目的主机。则可 
以得到主机 Z 的连接度 C / 的计算式为 

C ；= \ W ( t ) K ( t)dt (1) 

其中， C / 为主机在时间片为/的连接度，尤 (0 是决 
策函数，可以表示为 


K(,t) = D'(t)®D(t,0,t-l) ( 2 ) 

其中，定义了 ■•个新的运算符©，它是矢量和常量 

之间的运算符。设某个常量 a 和矢量乂，则 ㊉ 的运 
算结果为 

「0， aeA … 

a ㊉ 乂 = j ⑶ 

[ 1 , a^A 

利用式 a ), 可得到网络主机的连接度监测算法，如 
图6所示。 


K 源 IP 列表; 

L 目的 IP 列表； 

P 目的端口 列表； 

C 网络数据包 

1 

for each C ( sicIP , srcPort ， dstEP , dstDPort ) 

2 

if srcIP is in K 

3 

if(detIP is not find conespoind L ) 

4 

insert dstEP into con espoing L 
insert dstPort in to P 

5 

K [ pos ]. coimt 4 =l ; 

6 

else continue 

7 

else 

8 

insert si cIP into K 

9 

Insert detIP into corresponding L 

10 

Pos = GetposFroniK ( srcIPK ) 

11 

K [ pos ]. count=l 

12 

end for 


图6网络连接度监测算法 


4自适应的蠕虫检测和遏制方法 

对于快速传播的蠕虫，必须有一种自动的遏 
制策略。当它检测到有蠕虫爆发的时候，能够快 
速地隔离感染蠕虫的主机。这样才能有效地遏制 
蠕虫的传播，更好地保护网络设备。考虑到蠕虫 
检测算法会产生一定的误报率，所以本节提出了 
一个自适应的蠕虫遏制算法。图7描述了该的蠕 
虫遏制算法。遏制算法由2个相对独立的子算法 
构成，子算法1首先记录网络上各个主机的连接 
度，然后根据连接度检测网络上是否有异常的主 
机，最后根据异常主机的数目计算蠕虫的攻击状 
态。设 p 为蠕虫发送的数据包目的端口， J 为感染 
该蠕虫的主机个数。则蠕虫的攻击状态可以由符 
号 Z ) 来保存，它是由二元组 ( pj ) 所构成的集合。 
子算法2首先判断数据包是否属于蠕虫的攻击 
包，如果是，它会以概率 >9来丢弃此包。判断某 
个数据包是否属于攻击包有以下2个 标准： 1) 发 
送此数据包的主机是异常 主机； 2) 此数据包目的 
端口存在于 D 中。 






子算法 1 
for each C \ 

检测是否存在异常的主机； 

end for 

计算蠕虫的攻击状态； 

子算法2 

for each packet(si cIP , sicPoi 1, dstIP , dstPort ) 
if ( packet 是蠕虫攻击包 ） then 

计算丢包概率 ft ; 

以概率》丢弃此数 据包； 

end for 

图7蠕虫遏制算法 

4.1 主机异常检测算法 

此算法首先利用图6所示的连接度监测算法 
得到各个主机的连接度，然后再判定主机是否异 
常。判定主机异常的主要依据是检测主机的连接 
度是否超过特定的阈值。因为，网络中主机连接 
度会出现周期性变化。例如，晚上连接度较小， 
而中午连接度较大。所以，本文提出自适应阈值 
的异常检测方法。设在时刻，网络上主机连 
接度的平均 值为& M 。则判断主机 i 发生异常的标 
准为 H 

.<>(i+r)A,-i (4) 

其中， y 是…个调整因子，它指示主机连接度偏 
离均值多大为网络异常。 均值& 可由式 (5) 计算得 
到 

K = + fl - ( 5 ) 

^ 1=1 

其中，2为遗忘因子，为被监测的主机个数。单 
纯通过式 (4) 判定主机是否感染蠕虫，会产生非常高 
的误报率。为了降低误报率，将式 (4) 进行修改，得 
式⑹ 

t x '^ d + r^^k (6) 

j=n-k+l 

4.2 计算蠕虫攻击状态 

计算蠕虫的攻击状态主要有2个任务： 1) 获 
取被蠕虫用于传送数据包的目的端口，在本文称 
之为可疑 端口； 2) 计算网络有多少种蠕虫攻击， 
每种蠕虫攻击感染了多少台主机。图8描述了计 
算蠕虫攻击状态的基本步骤。首先通过监测异常 


主机获取可疑端口 如果 p 存在于 D 中，则对 

其相应的 /加 1。如果不存在，则在 D 中新建 
个：：元组 ( p ， l )。 

D 初始化 为空； 

for each abnormal computer 

抽样统计异常主机的流景获取可疑端口序列 P 

for each p in P 

if p 存在于 D 中 

将此端口相应的频率加 1; 

else 

新增条目 ( p ， l ) 到 D 中； 

end for 
end for 

图 8 计算蠕虫攻击状态算法 

通过前面分析可知，计算蠕虫攻击状态最重要 
的的一步是获取可疑端口。不失一般性，主机/的 
网络传输过程可以抽象为目的端口流 
设 P d 为数据包的目的 端口。 则判 
断 * Pd 为可疑端口的标准为 

/( P d )>(l + /)^ ⑺ 

其中，函数 /(. r ) 获取元素 A ： 的出现频率。这样获取 
可疑端口的任务可以描述为在序列 S 中发现满足式 
⑺中的元素。利用文献 [8] 提出近似计数 ( LC ) 算法来 
解决这个问题。 

在 LC 算法中，它维护一个数据结构又此数 
据结构 S 是三元组 ( e ，/， Zl ) 的集合，其中， e 表示数 

据流中的元素，/为出现频率，」是计数允许的最 
大误差。 LC 算法把数据流划分成宽度为 n ，= p ^的 
桶，在本文^由式 (8) 所确定 

|= (1 + 版 ( 8 ) 

其中，是当前数据流的长度。 LC 算法首先记录 
每个元素在每个桶中的出现频率，然后更新数据结 
构5。在每个桶的边缘， LC 算法会在 S 中删除出现 
频率满足式 (9) 的元素 

/ +…一 ⑼ 

其中 ， mhK 1开始的桶的编号。 |?1 9描述了 
LC 算法。 
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为当前的桶 id ， 它的值为 

[NJ 

W 

|，此处 N len 是 

当前数据流的长度。 

s 初始化为空； */ 

for each element e 

ife 存在于 S 中 

将 e 相对应的频率增 1; 

else 

在 S 中，创建一个新条目 ( e ， 1，1)_ 


if 处于桶的边界 

删除满足的 ( e , f ， A ) 


end for 

输出满足条件 f >( S - E)N 的元素 




图9 LC 算法 


4.3 数据包丢弃策略 

当网络上的一个数据包被判断为蠕虫发送的 
攻击包时，要丢弃此数据报来保护 M 络上的设备和 
整个网络的运行。如果检测算法存在-定的误报， 
而且以确定性的方式丢弃数据包时，主机的正常网 
络行为就会被严重干扰。为了避免这种情况的发 
生，遏制算法以概率 >9的可能性阻断数据传输。被 
感染蠕虫的主机越多，则概率 >9就越大。它们的函 
数关系可以由式 (10) 表示 


如果 y = 0，且网络上主机的连接度分布符合正 
态分布，则内 =0.5, 那么就可以得到误阻率的最 
大值为 



1 + ^ e '^ 1 


( 12 ) 


从式 (12) 可知，如果参数 J 选择合适，则可以 
保证遏制算法的误阻率非常小，从而保证对主机的 
正常行为干扰非常小。 

当遏制算法工作的时候，网络上的主机可以分 
成3种状态： 1) 可感 染的； 2) 己感 染的； 3) 被 
隔离的。假设 5( f ) 表示/时刻可感染的主机数0 , /» 
表示 t 时刻己感染的主机数目， 2(0 表示/时刻被隔 
离的主机数目。这样，就可以得到在遏制算法启动 
的时候，主机的状态变化关系图，如图10所示。 
从图10可以得到遏制算法工作的时候，蠕虫的传 
播公式为 [9] 


子=卿)-麵#-翊 (13) 
at 

其中，#为具有漏洞的主机的总数目，为单位感 
染速率。而 0(0 可以表示为 

把式 (14) 代入式(13)，得到 


3 


( 10 ) 


其中，儿 •/ 是调节因子，调节儿 J 就会调节概率<9 
的变化速度，从而获得最优的蠕虫遏制效果。 

4.4 自适应的蠕虫监测和遏制算法分析 

在本节，首先给出衡量蠕虫检测和遏制算法效 
率的2个指标。然后根据这2个指标，分析检测算 
法的有效性。 

定义2误阻率 ( GP ) 主机的正常数据包被丢 
弃的概率。 

定义3遏制效率 ( GE ) 蠕虫在正常时候的 
传播速度和在有遏制算法时候的传播速度的比 
值。 

假设在 f 时刻，正常主机 i 的连接度超过阈值 
(l + a ) M 的概率为&，则主机 i 被检测算法判断为 

感染蠕虫的概率为;; f 。则 GP 可以表示为 


G P 


i+Ae^ 


(ID 


_ 

di 


/3'I(t)[N-m] 


在式 (15) 中，可以表示为 
&邱 


(15) 


(16) 


^ + e y,(0 

利用式 (16) ,易得到此蠕虫检测和遏制算法的 
遏制效率 GE 为 

J + e 邱） 




A 


(17) 


通过式 (17)， 得到如下 结论： 随着 7(0 的增加， 
G e 也会相应的增加，这样遏制算法能够很好地遏制 
蠕虫的传播。 


m 

图10蠕虫爆发时主机的状态变化示意图 
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5实验分析与算法性能分析 


为了验证算法的有效性，搭建如图11所示的 
仿真平台。此平台由4部分组成 ： 1) 蠕虫数据发 
送 模块； 2) 背景流量发送 模块； 3) 控制模块； 4) 
蠕虫检测和遏制模块。控制模块监听网络上的数据 
包，如果发现是蠕虫的数据，则控制模块以概率# 

的可能性启动新的蠕虫数据发送模块。在本实验中 
概率#的大小为# = (#-/, )/2 32 。在仿真实验中， 
A — 0.98 ,k = 3 ,y — 2.5 A = 10000 。 背景流量噪声 
服从 M 20,80 2 ) 的正态分布 [1 ° ] 。 
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5.1 单种蠕虫攻击的算法性能分析 

首先，分析网络上只有一种蠕虫攻击时，算法 
的遏制效果。在只有单种蠕虫的攻击时，的仿真平 
台模拟 RED Code 蠕虫。它的仿真参数设置 为：具 
有漏的主机的总数目为 A ^360000 : 蠕虫的扫描率 
服从 AT (358,80 2 ) 的正态 分布； 利用的目的端口为 
138；初始感染蠕虫的机器数目为10台。图 12( a )~ 
图1 2( c ) 展示了监测算法在连续 A 个时间段内所得到 
的监测结果。利用式 (6) 的检测算法可以得到如图 
12( d ) 所示的检测结果。在图 12( d ) 中横坐标为主机， 
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(d> 检测结果 


图 n 连续 t 个时间段的检测结果和检测算法的检测结果 
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图14蠕虫所发送数 IK 报通过的数目和被丢弃的数目 
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图13丢包概率的变化过程 
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纵坐标为检测 结果： 大于0表示该主机异常； 0表 
示该主机正常。用值为1表示检测结果错误，值为 
1.5 表示检测结果正确。从图 12( d ), 可以知道检测 
算法在 有-定 误报率前提下能够正确地检测出感 
染蠕虫的主机。下面，分析遏制算法的遏制效率和 
对 IH 常用户的干扰情况。 

当算法检测到有异常主机存在时，它认 为网络 
上存在蠕虫攻击，此时算法记录蠕虫的攻击状态， 
根据每个蠕虫的攻击情况，算法自适应的调节丢包 
概率 •？ 。图13显示了在蠕虫传播过程中丢包概率<9 
的变化过程。从图13可以知道，当蠕虫刚刚出现 
在网络上时，此时由于较少的主机感染蠕虫，算法还 
不能确定网络是否真的存在蠕虫，所以相应的丢包概 
率<9比较小。后來，随着感染主机的数目增加，算 
法越来越确定 N 络存在蠕虫的攻击。所以丢包概率 
越來越趋近于1。图14显示了在整个蠕虫攻击过 
程中，蠕虫所发送数据包通过的数目和被丢弃的数0。 
从图14可以很明显地推出随着蠕虫的疫情加剧，遏 
制算法丢弃了越来越多蠕虫的攻击包。到了最后， 
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图18蠕虫 I 所发送的数据包数目和被丢弃的数目 


通过的蠕虫攻击包的数目几乎为0。这样就能够保 
证遏制算法能够有效地遏制蠕虫的传播。图15显 
示了蠕虫在正常情况下和有遏制算法情况下的传 
播过程比较情况，从图15可以看出算法能够有效 
地遏制蠕虫的传播。 



m is 燸虫在两种情况下的传播比较闬 

一个好的蠕虫遏制算法不但能够有效地遏制 
蠕虫的传播，而且还要具有对正常行为的低干扰 
率。假设 NT 是正常用户的发包次数， BN 是被遏 
制算法阻断的次数。图16显示了在整个实验过程 
中， NT 和 BN 的对比情况。图17显示了在整个蠕虫 
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图17误阻率的值 


传播过程中，误阻率的大小。从图16和图17可以 
推得： 虽然此遏制算法在工作期间对 正常网 络的行 
为有一定得影响，但是对比 NT 和 BN , BN 的值远 
小于 NT , 可知遏制算法的误阻率非常小。这样就 
能够保证正常主机在遏制算法工作的时候不被过 
多的干扰。 

从上面的分析可知，该检测算法虽然存在一定 
的误报率，但是由于遏制算法能够根据疫情的状况 
自适应地调节概率<3: 非常小的时候，丢包概率 
9 也非常小。这保证了遏制算法在一定的误报率情 
况下对正常用户的干扰非常小。当 J (0 增大的时候, 
•9 也随着增大，这样保证了遏制算法能够有效地遏 
制蠕虫地传播。 

5.2 多种蠕虫攻击的算法性能分析 

在本节，分析在 M 络上有多种蠕虫攻击时遏制 
算法的效果。表1显示了2种蠕虫的基本参数。 


表1 蠕虫的基本参数 


蠕虫 

传输端口 

扫描率 

漏洞主机 

初始感染数呈 

蠕虫 I 

135 

358 

360 000 

10 

蠕虫 n 

4 444 

214 

240 000 

0 


图18和图19分别显示了 2种蠕虫发送的数据 
包数目和被丢弃的数目。从图18和图19可知，在 
多种蠕虫攻击的时候，该遏制算法利用所保存的蠕 
虫攻击状态，能够非常清楚地识别每个攻击包所属 
的蠕虫种类，然后根据相应的概率 <9丢弃它们的数据 
包。由于蠕虫 I 的扫描速度快，其相应的丢包概率 <9 
也增加的越快。但是到了最后这2种蠕虫的丢包概 






























































1 . / ; ——忑炸数椐仅的数说 

; ——发送数椐仅的数 W 
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阁19蠕虫 n 所发送数椐包的数目和被丢弃的数目 

率 <9都趋近于1。这说明了该算法能在网络上存在多 
种蠕虫攻击时，也能够有效地遏制蠕虫的传播。阁 
20显示了网络上主机正常行为所发送数据包的数目 
和被丢弃数据包的数目，图21显示了相应的误阻率 
的大小。从图20和图21可以推出以下 结论： 在网 
络上存在多种蠕虫攻击的时候，遏制算法也能够有 
效地保证正常的网络行为不被过多的干扰。 
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图 20 正常行为所发送的数据包数目和被 f •弃的数目 
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6结束语 

近几年，越来越多的人注意到网络蠕虫爆发对 
社会的危害。所以，提出-种有效的蠕虫遏制方法 
遏制蠕虫的传播具有重要的意义。本文提出了一个 
新的蠕虫检测和遏制算法。此方法首先监测 M 络上 
的主机连接度， 检测网 络是否有异常的主机存在。 
如果有，则认为网络上有蠕虫存在。遏制算法会记 
录蠕虫的攻击状态，并根据攻击状态的不同，对疑 
似蠕虫的攻击数据包以概率 s 丢弃。由于该遏制算 
法是根据检测结果自适应的调节丢包的概率，所以 
此方法在非常高的误报率情况下，仍然保证了对正 
常主机的低干扰率。最后，实验结果证明了该方法 
能够有效地遏制蠕虫的传播。 
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Abstract The defender needs to predict, detect and understand attacks, and makes good decisions 
about defense strategies. Because the target of attackers and defenders is oppositional and their 
strategies are interdependent, the selection of optimal defense strategy is a complex issue. In this 
paper, the issue of optimal defense strategy selection is defined and formalized. A new attack-defense 
stochastic game model is proposed to describe the offensive and defensive conflict of attackers and 
defenders in network security and address the issue of optimal defense strategy selection. The model is 
a dynamic multi-player and multi-state model which is expanded by normal attack-defense game and 
Markov decision process. By viewing privilege state in node of attacker as elements in attack-defense 
stochastic game，we can model the dynamic transition of attack and defense state and compute the 
probabilities of attacker and defender behavior. This paper analyzes the cost factors related to attack 
and defense and provides a cost-benefit analysis method that helps defender evaluate and select defense 
strategies. An algorithm for defense strategy selection based on those models is proposed. A 
representative network example is provided to illustrate our models and demonstrate the efficacy of 
our models in the prediction of attack behaviors and decision of optimal defense strategies. 

Key words Internet security ； active defense ； policy selection ； attack-defense stochastic game model ； 
privilege elevation 

摘要由于网络安全攻防双方的目标对立性和策略依存性，使得最优防御策略选取问题十分复杂.形 
式化定义了网络安全防御策略选取问题.提出了 一种刻画网络安全攻防矛盾，解决防御策略选取问题的 
攻防随机博弈模型 . 该模型是矩阵型攻防博弈模型和 Markov 决策过程的扩展，是多人、多状态的动态 
攻防推演模型 . 将攻击者在网络实体上的特权状态作为攻防随机博弈模型的元素，建模网络攻防状态的 
动态变化，并预测攻击行为和决策最优防御策略 . 给出了基于上述模型的防御策略选取算法.用一个网 
络实例分析了该模型和算法在攻击策略预测和防御策略决策方面的有效性 . 
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0引 言 

现在的计算机网络信息系统一般建立于多平 
台，运行着多种软件并支持多种连通模式，必然存在 
一些安全弱点和错误.同时网络攻击方式也呈现多 
样化、智能化、综合化的发展趋势.由于资源和能力 
的限制，管理员不可能消除每一个弱点，也不可能防 
御所有的攻击.如何在信息安全风险和投人之间寻 
求一种均衡，利用有限的资源作出最合理的决策一 
直困扰着信息安全的防守方. 

当前网络安全挑战和突破口是研究新的合理的 
攻击和防护模型 [1 ] .为了更好地理解信息安全攻防 
对抗本质，本文用一个数学的框架模型描述信息安 
全攻防之间的矛盾冲突问题，解决攻击行为预测和 
最优防御策略选取问题.信息安全中攻防对抗的本 
质特征是攻防双方的目标对立性、关系非合作性、策 
略依存性，而这些特征正是博弈论 [2] 的基本特征.在 
网络攻防环境下，攻击者的总是希望通过破坏目标 
实体组件的功能或服务质量来获得最大化收益.防 
御者总是希望把系统的损害降为最少.将博弈论的 
思想应用到网络攻击和防御中，为解决网络信息安 
全攻防矛盾及其最优防御决策等难题研究提供了一 
种新的思路. 

目前，有关攻防成本定量分析、主动防御、博弈 
论在网络安全领域的研究工作取得了一些研究成 
果，但还处于起步阶段，尚未形成系统化的理论方 
法，需要进一步深人研究. 

文献 [3] 首次提出了成本敏感模型作为响应决 
策的基础，根据响应成本和攻击损失来决定是否响 
应.响应决策思想和各种成本的量化比较简单，但其 
代价量化、代价分类和攻击分类的思想和方法对本 
文的研究内容有一定的借鉴意义.文献 [4] 给出了比 
较完整的攻防分类及其成本敏感模型，有效地应用 
于主动防御中.文献 [5] 提出了一种基于攻击图的网 
络最小代价加固方法.文献 [6] 提出了脆弱性利用成 
本估算模型，对网络系统的脆弱性进行量化评估，为 
管理员在权衡修复成本和效果时提供参考.文献 [7] 
提出利用随机博弈来对网络中的正常节点和恶意节 
点进行理性分析的思想.文献 [8] 利用不完全信息的 
重复博弈对信息战中参战双方的行为建模.文献 [9] 


利用博弈论分析了攻击者和管理员关系和纳什均衡 
策略，但是在攻防收益函数量化方面比较简单.文献 
[10] 提出了基于博弈理论的人侵意图、目标和策略 
推理模型.针对理性攻击者我们提出了一种静态矩 
阵型攻防博弈模型，将攻防双方建模为二人非合作 
博弈 W ，从而构建一套基于防御图模型的风险评估 
和基于静态矩阵型攻防博弈模型的主动防御框架. 
在文献 [ 11 ] 中进一步提出了基于 Markov 特权链的 
攻防随机模型，但是比较简单.文献 [12] 在量化安全 
随机模型时利用博弈理论建模和计算攻击概率. 
文献 [13] 提出了一种基于博弈理论的动态人侵响应 
DIRBGT 模型，有效提高了报警响应的准确性和 
效果. 

1防御策略选取问题形式化描述 

在网络安全管理中，防御策略能够减少攻击风 
险和攻击损失，同时增加了防御成本，两者之间如何 
权衡，如何选取最优防御策略一直困扰着防御者.防 
御策略的选取不仅考虑防御成本，更要考虑网络资 
产关键度和可能发生的攻击.针对单个攻击，防御决 
策只需要选择综合防御代价最小的策略.而在多步 
攻击和多个攻击动作的情况下，有的防御策略可能 
对某个攻击动作有效，对其他攻击动作无效，这就需 
要考虑防御策略对特定攻击的有效性、防御操作成 
本、防御负面影响等因素.另外每个攻击策略的发生 
概率是未知的.如何保证防御策略最优，使得期望综 
合防御代价最低，这是一个十分复杂的问题. 

根据以上分析，将防御策略选取问题定义为一 
个函数/^,。。 ： （匸，八，0,0)—0'，其中各个元素含 
义如下. 

C :被保护的网络信息系统实体组件集合.实体 
组件 C ec 可以是主机、路由器、防火墙等资产，每一 
个实体组件由软件、硬件、数据和服务等一部分或多 
部分组成.如运行着 Http 服务的 Web 服务器等. 

A : 可能的攻击、正在发生和即将发生的攻击信 
息集合.对于网络实体组件 C ec ， c 存在弱点可能被 
攻击者利用，需要对这些可能的攻击、正在发生和即 
将发生的攻击 a e a 进行识别，从而对 c 进行防护. 

D : 防御系统可采用的防御策略集合（不采取防 
御措施也是一■种策略，即 <j> ^ D). 如针对 Ftp 




1716 


计算机研究与发展 2010, 47(10) 


Buffer overflow 弱点的攻击，防御策略= ( 关闭 
Ftp 服务），且 

G : 攻防博弈模型集合.如矩阵型攻防博弈 
ADG [4] 、下面介绍的攻防随机博弈模型 ADSG 等， 
可以根据具体的网络攻防环境，选择合适的网络攻 
防博弈模型. 

选取的最优防御策略集合，且 D ' gD . 

/ selection 是一个从 （ C ， A ， D ， G ) 到最优防御策略 
D ' 的映射，对于任意有 （ C ,.， A ,， D ,， G ,)— D ; ， 
( Q ， D , ， G ,) — D ; ，若 ( C ; ， A ,， D , ， G ,) = ( C y , A ; , 
D , ， G ,) ，则必有以 = D ；. 给定网络信息系统实体组 
件集合 C ， 通过脆弱性分析和入侵检测机制确定攻 
击信息集合 A ， 然后对 A 和 C 分析确定防御策略集 
合 D ， 根据网络攻防和需求情况选取合适的网络攻 
防博弈模型 G ，通过 A ， C 和 D 等相关信息构建攻防 
博弈模型 G . 本文将对给定的 （ C ， A ， D ， G ) 信息，研 
究基于攻防随机博弈模型的最优防御策略选取函数 
的构造和求解. 

2攻防随机博弈模型 

随机博弈^ ] 可以看作是一个在各个局中人的 
联合行动下，使得博弈系统从一个状态转移到另一 
个状态的状态机.网络系统同样可以看作是一个状 
态机，攻防双方以目标冲突的联合行动使得系统状 
态转移.攻击者的目标是对网络系统的安全属性进 
行破坏，防御者阻止攻击者进行安全属性损害.系统 
状态变化不确定，以概率的方式从一个状态转移到 
另一个状态.所以用随机博弈模型来刻画网络攻防 
冲突问题是合理的.下面给出攻防双方在多个攻防 
状态下动态寻找最优攻防策略的攻防随机博弈模 
型. 

2.1 攻防随机博弈模型 

定义 1. 攻防随机博弈模型 （ attack-defense 
stochastic game , ADSG ) 是一■个七元组 ADSG = 
( JV ， S ， A ，_ D ， P ， t / a ， C / d )， 其中: 

① N = { Attacker , Defender } 是参加攻防博弈 
的局中人集合.若攻击者的数量 >2,则表示分布式 
协同 攻击; 若防御者的数量 >2，则表示多个防御者 
协同防御，在本文中，仅考虑 n = 2 情况，一个攻击者 
和防御者，其他情况可以将多个攻击者和防御者进 
行合并看作是单个攻击者和防 御者； 

② 3={3 1 ，3 2 ，〜，3«}是攻防随机博弈状态 
集合； 


③ A ={ ai ， a 2 ，…， 攻击者动作集合，攻击者在 
博弈状态 S t 的攻击动作集合 ACZA ， 且 U A t = A ； 

k = \ 

® V ={ d L ， d z ，._.， d N } 防御动作集合，防御者在 
博弈状态的防御动作集合 ACZD ， 且 \J D k = D ； 

k = l 

⑤ P : SXAXDXS — [0，1]是攻防随机博弈状 
态转移概率 函数； 

⑥ U k ： SXAXDXS -^? H , k = a i ,dj 局中人的收 
益函数集合 （utility function ) ，其中況是收益值.收 
益函数表达了攻防双方从博弈中能够得到的收益水 
平，它是所有局中人策略的函数.攻防双方的收益关 
系可分为零和 （ Zero-sum ) 与非零和 （ Nonzero - 
sum ). 如果攻防双方的收益队和 L 7 d 满足 U , + U d = 
0,称为零和攻防博弈. [ j a + t/ d 尹 0,称为非零和攻防 
博弈.根据不同的网络环境和攻防情景选择零和或 
非零和博弈模型. 

在网络攻防博弈的过程中，双方不会事先将策 
略决策信息告知对方或达成一致协议，攻击者和防 
御者之间的关系都是都是非合作的、对抗性的.所以 
上述模型是一个非合作攻防随机博弈模型. 

2. 1. 1攻防随机博弈状态 

本文将网络安全状态作为攻防随机博弈状态 
集.网络安全状态表达了网络实体组件的软硬件资 
源属性、连接性和用户或攻击者对整个网络的访问 
能力.安全状态的状态变化由攻防动作对 （ a , ，<)引 
起，可以表现为文件修改、系统配置改变、可执行程 
序运行、攻击者的特权提升等.攻防随机博弈状态可 
以用一个有向图 G =( S ，£) 来表示， S 是图的节点 
集，每一个节点表示一种博弈状态，£是边集，表示 
攻防随机博弈状态转换关系.以图1为例说明博弈 
状态及其转换关系.图1表示具有3个博弈状态 S = 
{ SdSmS 」 的状态图.图中状态相互可以转换，但是 
在一些具体的网络环境，不是所有状态可以相互转 





Fig. 1 Example of ADSG’s state. 
图 1 攻防随机博弈状态实例 
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换.图中状态之间标注九 2 ( a , ，<)表示在攻防策略 
对 ( a ,，<) 作用下博弈状态从状态1到状态2的转 
移概率.后面实例分析将给出攻防随机博弈状态图 
具体的描述. 

2.1.2 状态转移概率函数 

由于博弈状态转移是由攻防动作引起的，具有 
随机性，可以用概率来描述状态转移的可能性大小. 
如果信息系统有《个安全状态，可以用一个状态转 
移矩阵 P 来表示各个安全状态之间的状态转移 
概率： 

pn (ai ,di ) pu (ai ,d 2 ) … p\ n (ai ,d n ) ' 
pti (a 2 ><^i ) Pn (a 2 ,d 2 ) … p2„(a 2 ,d„) 

P = . . 

p, A {a„,d 1 ) p nZ ia n ,d 2 ) … p m (a n ,d n ) , 

(1) 

其中矩阵元素^ ( a , ， <) 表示攻防博弈系统在攻防 
动作对 （ a ,，<) 作用下从状态/转移到状态 j 的概 
率.由于攻击者是理性的，攻击的原则是以最快、最 
易、最省达到攻击目的，所以攻击动作具有规律性. 
状态转移概率可以根据历史数据、统计、模拟结果和 
专家知识并结合特定的信息系统环境来确定. 

2.1.3 攻防策略及其收益量化 

定义 2. 攻防策略.在博弈状态 S t ， 攻击者或防 
御者采取动作的规则称为该状态下的攻防策略.用向 
量 W = inl (ai ) ； nl («2 ) ，…， ( a ; ) ) ， W = (W Wi ) ， 
M W 2 ) ，…， dW ,)) 来表示攻击策略和防御策略，其 
中是=1，…， K ，<2, e 6 A * ，分别是攻防 
双方在博弈状态&所有可采用的攻防动作（包括 
不采取动作彡)集合，且 A t C = A ， 认 CD . 攻防策略为 
7 rf ( a ; ) 表示在状态 S t 攻击者选取攻击动作 a ,. 的概 
率， 4(4) 表示在状态 S t 防御者选取防御动作< 
的 概率 . 'i k , a { ^ A , dj G D ，0<7 r |( a ; Xl ，0< 

7 tt ( djXl ，2 7 r |( a ；) = 1， 2 = 1 . 攻击 

Va - ' id . 

者和防御者以概率的形式选取可用的攻防动作，所 
以攻防策略有时也称为混合策略或随机策略.如果 
7 r t a ( a ；) = 1, =0, 则称攻击策略 nl = 

(ttj ( a 1 ) , 7 T * ( a 2 ),•••, 7 Tt ( a , )) 是纯策略 ，？ if = 
( TrtCd ! (4)) 同理.可见，纯策略是 

混合策略的特殊情况.如果攻防策略向量； T , 在所有 
状态下独立于时间和历史，则称为稳定攻防策略，本 
文仅考虑稳定攻防策略. 

定义 3. 攻防纳什均衡 （Nash equilibrium ™). 


给定一个攻防随机博弈 ADSG =( N ， S ， A ， D ， P ， 
U a ， U d ) ，对于任意々=1，…， K ， 在博弈状态，攻防 
双方的混合策略分别是 W = (W (ai ) ，4 (<22 )，•••， 
TrKa ,.) ) ， d = (4 ( c/i ) ， d ( o ?2 ) ， ... ，4 (4 )). 稳定混 
合策略 ( Trf ，7 rf )是一个纳什均衡，当且仅当该混合 
策略是攻防双方的最优响应策略，即满足 ：对于 
V nt > V , inV ( 7 tf , 7 tf ); 对于 V Ttf ， Wd (7 T , a * ， 

7 tf y^ViCjrt 这里 v k ( k ! ， tt ?) ,k = a ； ,dj 表示攻 

击者和防御者分别采用稳定策略 Kt , Kt 时参与者々 
的收益期望值. 

纳什均衡 ，7 rf ) 是攻防双方在攻防博弈状 
态 S , 下的最优攻防策略，攻防双方只有采取纳什均 
衡策略才能最大化其收益.整个攻防随机博弈的纳 
什均衡，即最优攻击策略集可以表示为 =Uf , 

kV ，…，}，最优攻击策略集可以表示为 V = 

{ tT ? , K 2 , T：k }■ 

定理 1. 纳什均衡存在性.给定一个零和攻防随 
机博弈 ADSG =( N ， S ， A ， D ， fM 7 a ， t / d ) ，如果博弈 
状态集 S , 攻防动作集 A ， D 是有限集合，则存在一 
个稳定纳什均衡. 

证明.因为攻防随机博弈模型是矩阵型攻防模 
型扩展到多个状态而得到的，在某一个状态々下，博 
弈状态 S t 是一个矩阵型攻防博弈.又因为博弈状态 
集 S ，攻防动作集 A ， D ，收益值 t / a ， L / b 都是有限的， 
所以 ADSG =( N , S ， A ， D ，_ P ， U a ， t / d ) 是一个有限随 
机博弈 . Fmk [15] 给出了每一个有限随机博弈都存在 
一个稳定纳什均衡的结论.所以上述零和攻防随机 
博弈存在一个稳定纳什均衡. 

因为攻防随机博弈模型是矩阵型攻防模型和 
Markov 决策过程的整合和扩展，所以在某一个状 
态是下，攻击者动作集合为 Ai = ( a !， a 2 ，…， a m ) ，防 
御者动作集合认=(4，心，…，尤）.博弈状态可 
以看作是一个矩阵型攻防博弈，用一个矩阵 
心 来表示 [14] ，矩阵元素为 

K 

4 = ^ pfj (ai 9 dj )S t , ( 2 ) 

i=i 

其中，户？ (ai 9 dj ) 0 9 L = 1 9 ••• , K , z = 1,…， m ， 

K 

j = '， …， n'M k ， i ， j ， ( ai ， dj )〈 l . 攻击者可能 

i=i 

选取的攻击动作用矩阵中每一行来表示，防御者选 
取矩阵中每一列作为其防御动作.攻防双方的目标 
是最大化其收益，矩阵元素是攻防双方的收益和损 
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失为攻击者采取攻击动作~的直接攻击收益 

K 

AR 9 X ) 为间接收益.可见，攻击收益 

1=1 

不仅与攻击动作有关，而且和当前状态有关.式 （2) 
表示为在博弈状态，如果攻击者选取行纯策略 
a ,、 防御者选取列纯策略4进行博弈，则防御者支 

付给攻击者收益为4+ i 妁 （ a ,，4) s ,， 博弈状态 

i=i 

以概率#(^,，4)从&到 S ,， 博弈系统终止的概率 

是 1— &妁 （《, ，4)或博弈系统终止于没有其他状 
1 = 1 

态可以转移. 

定理 2. 攻防博弈值存在性 [14] .给定一个攻防 
随机博弈兔050=(尺，5,4,0，_?，?^，％)，对于任 
意々 = 1，…， K ， 博弈状态 S t 的值％ —定是式 （3) 的 
唯 一解： 

v k = Vai ( S k ) , (3) 

其中 W ( S t ) 是矩阵型博弈 S t 的值，矩阵的元 
素为 

K 

s% = it k jj > : pfj (.cii j^Vi ， C4) 

i=i 

文献 [14] 给出了随机博弈值的存在性证明，这 
里不再证明. 

由于目标实体组件的重要程度是随着网络环境 
的不同而变化，而且各类攻击的固有危害也是不尽 
相同.所以攻击造成的损失不仅与攻击的类型有关， 
而且与攻击的目标有关.攻防收益和系统损失的量 
化可以结合攻击类型及其攻击目标进行计算.在文 
献 [4] 中，我们给出了比较完整的攻击分类和成本量 
化，将攻击动作分为6类，并结合攻击分类和主动防 
御的时空特点，将防御策略分为基于主机和基于网 
络的两大类，其中每一种防御分类包括若干个子类. 
这里不再赘述.结合前期工作的攻防成本、收益量化 
模型 [4] ，给出攻防随机博弈模型的攻防成本量化 
方法. 

定义 4. 防御有效率.对于攻击 a ， 采用防御策 
略 d 的有效性，用 e ( a ,，4) 表示.当完全阻止攻击 
时， e ( a , ，4) = 1，无效时 , e ( ai , dj )=0 ，其他情况时 
0< e ( a ； , < iyXl . 

定义 5. 防御成本 ( DC ). 防御策略的操作代价、 
负面代价之和称为防御成本.即 

DC ( d ) = Ocost id ) + Acost X r ( a , , dj ) , (5) 

其中 ， OcosK < i ) 和 Acost 分别表示操作代价、负面 


代价. 

定义 6. 攻击收益 （ AJ ?). 攻击者发动一次成功 
攻击所得到的好处称为攻击收益. 

AR = ( l - e ) Dcost ( a ) + DC ( d ) - AC ( a ),(6) 
其中 ， DcosKa ) 是系统损失代价，表示攻击 a 造成的 
系统损失， DC (心是防御者采用防御动作 d 的防御 
成本， AC ( a ) 是攻击成本，表示攻击者发动攻击 a 的 
所需要的成本. 

定义 7. 防御收益 （ DK ). 表示防御者采取防御 
策略^后，网络系统免受的损失，也包括防御成本、 
攻击成本. 

DR = AC(a) — ( l — e ) Dcost ( a )— DC ( d )，（7) 
这里， AJ ? + DK = 0, 即零和攻防随机博弈.模型中的 
攻防双方由于他们的目标和利益对立，收益函数可 
能不同.但是考虑到攻防双方收益是互补的，即攻击 
者的收益即为防御者损失，所以本文选择零和攻防 
博弈是合理的. 

3 基于攻防随机博弈模型的防御策略选取 
算法 

3. 1算法描述 

给定 ( C ， A ， D ， G )， 其中 G = ADSG =( N , S , A , 
D ，_ P ， L / a ，[/ d ) ，下面介绍最优防御策略 D ' 的选取算 
法.由于攻防随机博弈有多个状态，求解式 （2) 比较 
复杂，可以使用 Shapley 迭代方法 [14] 来求解攻防随 
机博弈的值 V = (Vi ,V 2 , •■- , 1%： ) 及其最优攻防 策略. 
首先任意初始％ =(叫（1)，叫（2)，…， lUK ))， 用迭代 

K 

公式 M +1 = VaZ ( i 4 + D 户》/(<2 £ ，<^)7^)迭代求解， 
1=1 

直到满足|14 +1 — 14|<53为精确度.最后得到值向 
量为 v = ( w ， w 2 ，…，处），对于任意々=1，2，…， K " ，利 
用式 （4) 构建矩阵型博弈矩阵，求解民得到攻防 
双方的最优策略 ( W ,4) .本文参考文献 [12] 给出基 
于攻防随机博弈模型的攻防策略选取算法. 

算法 1. 基于攻防随机博弈模型的防御策略选 
取算法. 

输人 :( C ， A ， D ， G ) 和 
输出： 最优攻防策略 D '. 

① 由 C ， A ， D 构建攻防随机博弈 G = ADSG ; 

② 任意初始向量 v ° = ( i / 1 ( 1 ) ， i /* ( 2 ) ，…， 

③ Repeat 
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④ for 每一个博弈状态 S k eS do 

⑤ for all 5 ! do 

⑥ 用功代替式 （2) 中的 

⑦ end for 

K 

⑧ 计算 4 +1 = Val ( i 4 + Y , pfj 

Z = 1 

⑨ end for 

⑩ for 每一个博弈状态 do 

⑪ v k ^-VaHS k ); 

⑫ end for 

⑬ until I v r k +l — I 〈谷 ， V 5^ G S 
⑭ for 每一个博弈状态 G S do 
⑮ Ini ， Kt ) = Scdve ( Sk ) •， 

⑯ end for 
⑰ return D ' = { Kk }. 

3.2 算法复杂性分析 

该算法的关键是攻防随机博弈模型的求解，整 
个算法的时间复杂度主要取决于迭代求值过程和 
Soive ( S k ). 由定理1和定理2可知，算法1的迭代 
求解攻防随机博弈值最终收敛，其时间复杂度与防 
御者输人精度参数 S 相关 j 的值可以根据迭代计 
算精度和计算时间来设置. S 0 k e ( S 4 ) 是计算矩阵型 
博弈纳什均衡，利用线性规划求解矩阵型攻防博弈 
混合攻防策略的时间复杂度是 0 U 2 ) [1 

4实例分析 

本文假定有如图2所示的典型的网络信息系统 
拓扑结构，攻击主机位于外部网络，被保护的网络信 
息系统实体组件集合 C = { Attacker Host , Smtp 
Server , Ftp Server , Data Server }. 防火墙将目标网 
络与外部网络分开，防火墙规则及连接信息如表 1 
所示.目标系统弱点信息如表2所示. 



Fig. 2 Topology of example network. 
图 2 网络拓扑结构 


Table 1 Connectivity in Example Network 
表 1 防火墙规则及连通信息 


Source 

Destination 

Service 

Action 

All 

Smtp Server 

Ftp, Smtp 

Allow 

All 

Ftp Server 

Ftp, Ssh 

Allow 

Smtp Server 

Database 

Oracle 

Allow 

Ftp Server 

Data Server 

Oracle 

Allow 

Table 2 Vulnerability in Servers 

表 2 服务器弱点信息 

Host 

Vulnerability 

CVE ID 

Effect 

Smtp Server 

Ftp . rhost 

1999-0547 

User privilege 

Ftp Server 

Ftp . rhost 

1999-0547 

User privilege 


Ssh Buffer overflow 

2006-2421 

User privilege 

Data Server 

Oracle TNS Listener 

2002-0965 

Root privilege 


4.1 攻防随机博弈状态描述及其转移概率 

攻击者对网络的攻击和控制体现在对网络中实 
体组件的掌控上，即表现为攻击者对实体组件特权 
的获得.本实例将网络安全状态表达为攻击者在各 
个网络实体组件的访问能力 （ S 卩 特权 ） 情况，并将网 
络安全状态作为攻防随机博弈状态集.攻击动作引 
起网络安全状态的变化，即攻击者在各个组件上特 
权状态的变化 .一 般地，可以根据具体的网络系统环 
境定义攻击者特权状态集合.这里我们把攻击者的 
特权状态可以分为 ：无任 何特权 （no privilege )、 远程 
访问特权 （remote access privilege ) 、本地用户特权 
(user privilege ) 、根特权 （root privilege ) 4类，它们 
的特权由低到高顺序是无任何特权 < 远程访问特 
权< 本地用户特权 <根特权. 

本文假定攻击者是理性的和贪婪的，即只要网 
络实体组件具有弱点，则攻击者就会知道如何利用 
它发动攻击且不会对已经具有特权的弱点发起攻 
击.网络安全状态的变化总是向着攻击者特权逐渐 
提升的过程前进，即特权提升.特权提升状态变化反 
映了攻击者的攻击演进过程，完整的网络安全状态 
图反映了攻击者为达到人侵目的而可能采用的各种 
攻击动作的组合.例如，如果攻击者已经对某一网络 
实体组件具有本地用户特权，他不会再发动获取对 
该组件的低于本地用户特权的攻击.攻击者在实体 
组件上特权提升包括在单个组件上的纵向提升和向 
着攻击目标的多个组件间横向提升. 

假设攻击者在攻击主机上具有 Root 特权，并 
在此发起攻击，不能同时实施多个攻击动作，并以获 
取 Data Server 的 Root 特权作为目标 •根据 防火墙 
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规则，攻击者在 Smtp Server 和 Ftp Server 上，仅仅 
具有最低的远程访问特权且无法访问数据库服务 
器.但是各个组件的弱点的存在及其依赖关系，攻击 
者可以通过利用这些具有关联关系的弱点，进行多 
步攻击和特权提升，获取 Data Server 的 Root 特权. 
具体过程 如下： 在状态 Si ，攻击者在攻击主机上具 
有 Root 特权，可以分别利用 Smtp Server 和 Ftp 
Server 的弱点发动 Ftp. rhosts 攻击获取它们的本 
地用户特权，到达状态 S 2 ,S 3 . 因为它们与 Data 
Server 有连接关系，从而攻击者可以以它们为跳板 


Table 4 Description of Attack Action 
表 4 攻击动作描述 


Symbol 


Name 

Category 

Success 

Probability 

AL 

Ftp . rhost attack on Ftp Sever 

User 

0. 8 

7 

Ftp . rhost attack on Smtp Sever 

User 

0. 8 

8 

Ssh Buffer overflow 

User 

0.7 

5 

Oracle TNS Listener 

Root 

0.7 

10 

No action 

Other 

0 

0 


利用 Oracle TNS Listener 弱点，获取 Data Server 
的 Root 特权到达状态 S 5 . 另外，攻击者还可以利用 
Ftp Server 的弱点 Ssh Buffer overflow 发动攻击获 
取 Ftp Server 的特权到达状态 S 4 ，然后利用与 Data 
Server 连接关系，利用 Oracle TNS Listener 弱点获 
取 Data Server 的 Root 特权到达状态 S 5 . 具体的攻防 
随机博弈状态图 G=(S ，£：)， 如图 3 所示.博弈状态 
S= ，S 2 ，S 3 ，S 4 ，S 5 } ，各个状态描述如表 3 所示： 



Fig. 3 Attack-defense stochastic game state graph. 
图 3 攻防随机博弈状态图 


Table 3 

Description of Stochastic Game State 

表 3 攻防博弈状态描述 

State 

Description of State 

Si 

Root privilege on Attacker Host 

s 2 

User privilege on Ftp Server 


User privilege on Smtp Server 

s 4 

User privilege on Ftp Server 

s 5 

Root privilege on Data Server 


攻防随机博弈状态转移概率九（~)表示为攻 
击者发动攻击〜的成功率，该值与攻击复杂度、网 
络环境等因素有关.根据专家知识、历史攻击数据并 
结合上述假定的信息系统环境确定，表4给出了状 
态转移概率的具体 取值： 


4.2 攻防动作集 

分析攻击者的弱点利用过程，得到各个状态的 
攻击者动作集， A ! = { a !， a 2 ， a 3 ， a 5 } ， A 2 = { a 4 ， a 5 } ， 
A 3 = { a 4 , a 5 }, A 4 = { a 4 , a 5 }, A 5 = < j >. 全部攻击动作 

5 

集且 A = U A , = ，<2 2 ，<2 3 ，<2 4 ，<2 5 }. 攻击者动作具 

i=\ 

体描述如表 4 所示，同时给出了攻击类别、攻击成功 
概率和致命度信息.对服务器弱点、可能的攻击动作 
及其关联关系进行分析，从防御策略库选出各个状 
态可用的防御动作集 ， A = { 山， ( i 2 ，，山， AA ， 

cIq } ? D2 = { <^7 9 <^8 ? <^9 } ? -^3 = ( <^7 9 ds 9 } 9 D4 = { cil 9 

< i 8 ，( i 9 } ， D 5 = ^.全部防御动作集 D = U Di = {di 9 

i=\ 

dz ?dz ? di ， di ， d 芭， H 具体的防御动作及其 
操作代价和负面代价信息如表 5 所示： 


Table 5 Description of Defense Action 
表 5 防御动作描述 


Symbol 

Name 

Ocost 

Ncost 

d\ 

Patch Ftp . rhost on Ftp Sever 

50 

0 

d2 

Close rsh on Ftp Sever 

10 

120 

ds 

Close rsh on Smtp Sever 

10 

120 


Patch Ftp . rhost on Smtp Sever 

50 

0 

d^, 

Close Ssh on Ftp Sever 

10 

120 


Patch Ssh on Ftp Sever 

50 

0 

d.7 

Patch Oracle TNS Listener 

50 

0 

ds 

Access control TNS Listener 

30 

0 


No action 

0 

0 


4.3 攻防收益计算 

攻防动作集合确定之后，然后计算攻防动作收 
益和损失.因为采用零和非合作攻防博弈模型，从而 
仅需计算攻击收益即可.考虑到攻防收益的实际意 
义，攻击收益取正值.因为攻击都是针对某个服务 
器，可能对该服务器的机密性、完整性和可用性产生 
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危害，不妨设 P , = P c = - P a = l /3. Ftp Server 和 Smtp 
Server 的 Criticality 均为 3, Data Server 的 
Criticality 为 5 .安全属性代价的高、中、低分别用 
30,20,10来表示 ， Ftp Server 和 Smtp Server 的安 
全属性代价 （ Icost ,Ccost ,Acost) = (20,20,20 )， Data 
Server 的安全属性代价 （ I cost, Ccost, Acost ) = (30 ， 
30,30). 在这里，我们不考虑攻击者的攻击成本 
Ai ?， 防御残余代价 Rcost. 可以查询防御动作 

库得到，具体数值见表5所示.若 Ncost 很小时，可 
忽略不计，设为 0. 否则防御动作的负面影响可以看 
作是对服务器的一次 DOS 攻击，使得不能提供正常 
服务.从而 Ncost 的转换为 DOS 攻击对服务器产生 
的系统损失代价.为了简化分析，规定当防御动作 d 
对攻击 a 有效时 ,e(a ； ,dj) = l . 否则 e(a,. ，< ) = 0 •最 
后，通过用式 （6) 来计算每一个攻击动作的收益.对 
于 2 ' = 1，2,3,4,5，构建攻防随机博弈状态5,下攻防 
博弈矩阵 S ; . 

4.4 最优防御策略的选取 

利用算法1求解各个攻防随机博弈状态值及其 
最优攻防策略，其中每个矩阵型博弈的值利用 
Gamb ^ US 法计算，最后得到最优攻防策略为 V 

— f a* a* a* a* \ _a* — f d* d* d* d* \ 

一 \ TZl ，丌 2 ; 7t3 ，丌 4 /，兀 一 \ 7tl ， 7T2 > 7t3 ; /， 

其中 ：7 rr =(0.3,0.27,0.43,0.0),^* = kV = kV 
= (1.0,0.0),7 rf =(0.39,0.0,0.0,0.47,0.0,0.14, 
0.0), = k { =7 tf =(0.0，1_0,0.0) •分 析可知，在 
博弈状态 Si ，攻击者最优的攻击策略是以概率 0.3 
选择攻击动作山，以概率 0. 27选择攻击动作 a 2 ，以 
概率 0.43 选择攻击动作 fl 3 . 防御者最优的防御策略 
是以概率 0.39 选择防御动作以概率 0.47 选择 
防御动作以概率 0.14 选择防御策略在博弈 
状态 S 2 ， S 3 ， S 4 攻防双方都采取纯策略，这也符合攻 
防环境实际情况.各个博弈状态的期望收益值向量 
如表6所示.图4描述了用 Gambit 计算攻防双方在 
博弈状态 Si 下攻防策略概率变化过程，逐渐收敛最 
后趋于稳定，即达到纳什均衡. 

Table 6 Expected Payoff of Game State 


表 6 博弈状态攻防期望收益值 


Game State 

Payoff of Attacker 

Payoff of Defender 

Si 

347. 5 

-347. 5 

s 2 

54 

-54 

s 3 

54 

-54 

s 4 

54 

-54 

s 5 

30 

— 30 



Fig . 4 Probability of all strategies in Si . 

图 4 博弈状态 & 下的攻防策略概率变化图 


5 结 论 

针对网络安全最优防御策略选取的复杂性，形 
式化定义了网络安全防御策略选取问题.提出了一 
种刻画网络安全攻防矛盾，解决最优防御策略选取 
问题的攻防随机博弈模型.将网络攻防双方建模为 



模型的形式化定义及其构成元素.该模型是矩阵型 
攻防博弈模型和 Markov 决策过程扩展为多人、多 
状态的动态攻防推演模型.不仅考虑防御策略成本 
有效性，而且将攻击策略及其收益纳人攻防随机博 
弈模型中，全面考虑攻防双方矛盾，使得防御决策更 
加有效.介绍了基于上述模型的主动防御选取算法， 
帮助防御者采取最优防御策略进行主动防御.网络 
实例分析说明了该模型和算法在攻击策略预测和主 
动防御方面的有效性. 
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Abstract: A detailed understanding of the structural properties of Internet topology will benefit the further design 
and development of the Internet. It seems infeasible to study the whole Internet at router level due to its extremely 
large size and the difficulty in obtaining a whole topology at this level. Studying each national or continental 
Internet service provider (ISP) topology individually becomes an alternative method for this goal. In this paper, the 
measured China Education and Research Network topology, a nationwide ISP topology, is basically taken as an 
example. The results of mapping the topology from multiple vantage points are briefly presented. The properties of 
the degree distribution, large eigenvalues, and the spectral density of the measured topology graphs are analyzed. 
The characteristics of the signless Laplacian spectra (SLS), the normalized Laplacian spectra (NLS), and the 
clustering coefficients of the measured graphs are also presented. The results suggest that some power laws indeed 
hold in some large-scale ISP topologies; in contrast to the case of autonomous system level topologies, the power 
law fit is not the best choice for some ISP topologies in terms of the complementary cumulative distribution 
function of the degree; some real ISP topologies are a kind of scale-free graphs which are not consistent with the 
Barabasi-Albert (BA) growth model; router level topologies are distinguishable in terms of the SLS or the NLS; 
router level Internet topology may have developed over time following a different set of growth processes from 
those of the BA model. 

Key words: Internet topology measurement; scale-free network; topology characteristic; power law; spectrum; 

Laplacian eigenvalue; clustering coefficient 

摘要：深入了解 Internet 拓扑的结构性质有利于更好地设计和发展 Internet. 由于 Internet 规模巨大，以及获得 
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完整的路由器级 Internet 拓扑方面的困难,目前无法研究整个路由器级 Internet 拓扑.因此，分别研究每个国家级 
或跨国因特网服务供应商 (Internet service provider, 简称 ISP) 网络拓扑结构成为了解 Internet 拓扑特征的一种可 
选方法.以中国教育科研网为例，简要描述了多点测量其路由器级拓扑结构的测量结果.分析了该实例拓扑图的 
节点度分布特征、较大特征值的有关性质以及谱密度分布特征.分析了该实例拓扑图的无符号拉普拉斯谱 
(SLS) 、 规格化拉普拉斯谱 (NLS) 以及群集系数等度量特征.分析结果表明，大型 ISP 拓扑确实具有某些幂律特征; 
不同于自治系统级拓扑的情形，对 ISP 拓扑的节点度补累积分布来说,幂律分布未必拟合得 最好; ISP 拓扑是一种 
无标度图，但不符合 Barabdsi-Albert(BA) 生长 模型; SLS 和 NLS 具有区分不同的路由器级拓扑结构的能 
力; Internet 路由器级拓扑的发展可能遵循一种不同于 BA 模型的生长过程. 

关 键词： Internet 拓扑 测量; 无标度 网络; 拓扑 特征;幂律;谱; 拉普拉斯特 征值; 群集系数 
中 图法分 类号： TP393 文献标 识码 : A 

Internet 在社会、经济、科研等各个领域中的作用日益增强 . 像报纸、电视、广播一样 , Internet 成为人们了 
解、获取信息的重要渠道之一.社会的需求使 Internet 的结构发生了巨大的变化.深入了解 Internet 拓扑的结构 
性质有助于准确地模拟、从而更好地设计和发展 Int e met [1] . 然而，由于 Internet 规模巨大，同时，在获得完整的路 
由器级 Internet 拓扑方面存在着极大的困难，目前来看，研究完整的路由器级 Internet 拓扑是不现实的 . 因此，分别 
研究每个国家级或跨国 ISP(Internet service provider) 网络拓扑结构就成为了解 Internet 拓扑特征的一种可选方 
法 . 如同世界地图集一样，每个国家级 ISP 拓扑是整个 Internet 拓扑的一部分，它们的集合 (包 括 Internet 交换点在 
内)就构成了 Internet 的全貌 . 

本文以路由器级 Internet 拓扑多点测量实践 [2 ’ 3] 为基础，对中国教育和科研计算机网 (China Education and 
Research Network, 简称 C.ERNET) 进行测量，其中 , C.ERNET 是国家级的大型 ISP, 拥有数百万个 IP 地址，网络覆盖 
全国大、中城市，在 Internet 连通性方面发挥着重要作用，对它的测量具有代表性 . 通过分析已有研究工作 [4 - 8] , 
应用代数图论理论研究结果 [9] ，对 CERNET 拓扑测量实例进行结构分析，同时也分析从多个测量点所观察到的 
拓扑子图与合并图 (union) 之间结构特征的变化.相应的方法可以应用于分析其他的国家级 ISP 拓扑测量实例 . 

本文第 1 节介绍研究背景.第 2 节简要描述多点测量 CERNET 拓扑实例的测量结果.第 3 节分析该实例拓 
扑图节点度的分布特征.第 4 节分析该实例拓扑图的谱密度、规格化拉普拉斯谱、无符号拉普拉斯谱等不同特 
征值集合的分布特征.第 5 节分析群集系数 (clustering coefficient) 等其他度量特征 . 最后总结全文 . 

1背景介绍 

1999 年以前，人们主要采用 Erd6 S -R&iyi(ER) 随机图模型理论基于模拟的方法对大规模网络拓扑性质进行 
分析 .1999 年 , Faloutsos 等人 [4] 首次采用幂律 (power-law) 来刻画自治系统级和路由器级 Internet 拓扑结构特征， 
并提出了 degree-rank 幂律、 frequency-degree 幂律以及 eigenvalue-rank 幂律 . 这一发现激发了人们的极大兴趣， 
引发了许多分析研究工作 . 但目前拓扑特征刻画的研究主要是针对自治系统级拓扑进行的，原因是 , A 1997 年 
起出现大量的 BGP 路由表数据对研究人员开放 .Oregon 大学的 Route-view 计划就是典型的例子.相关研究主要 
有文献 [10-14] 等.其中文献 [14] 采用类似于文献 [4] 的方法，对 1997 年 11 月至 2002 年 2 月的总共 1 253 个自治 
系统级拓扑图进行了分析,进一步验证了 degree-rank 幂律以及 eigenvalue-rank 幂律的存在性 . 其中，文献 [4] 考察 
了拓扑实例的前 20 个特征值，文献 [14] 考察了拓扑实例的前 100 个特征值 . 另外，由于 frequency-degree 幂律相当 
于考察的是频率石的概率密度函数 (probability density function, 简称 PDF), 而累积分布比概率密度的统计鲁棒 
性更好，因此，文献 [14] 考察了频率/<；的补累积分布函数 (complementary cumulative distribution function, 简称 
C.CDF)D d 与度 d 的关系，发现与也具有幂律关系，即 A/^«(“oc” 表示 “ 正比于 ”) ，称 ® 为度指数 (degree 
exponent). 称该幂律为 CCDF(rf)-degree 幂律，并用度指数 © 代替出度指数 0 来刻画拓扑图的度分布特征.除了刻 
画自治系统级拓扑特征之外，在复杂网络的生长过程方面，人们也进行了一定的研究和探索 [M ， 15 _ 17] . 

目前，国内外关于国家级或跨国 ISP 拓扑结构特征的研究还不多见，一方面原因在于多点采集 ISP 拓扑数据 
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比较困难，另一方面原因在于相应的分析理论还不成熟.除了文献 [4] 讨论了 Pansiot-Grad 数据集 [18] 的幂律特征 
以外， Broido 等人 [19] 基于 skitter 的数据分析了路由器接口 (IP 地址)级拓扑图的度分布特征，发现韦布尔 ( Weibull ) 
分布对节点度的补累积分布拟合效果更好 .Spring 等人 [2()] 对其所测量的10个不同的大 ISP 拓扑的节点度补累 
积分布拟合发现,对有些 ISP 来说, Weibull 分布拟合得好，少数是简化的对数正态 ( lognormal ) 分布拟合得好，大多 
数是帕雷托 ( Pareto ) 分布拟合得好.但前两种分布是对 CCDF 全部数据拟合，而 Pareto 分布只是对其尾部的拟合. 
因此无法与前两种分布比较拟合效果 .Magoni 等人 pl] 对3个不同规模的路由器级拓扑实例验证了 degree-rank 
幂律和 frequency-degree 幂律.最新研究 [17] 表明，虽然节点度分布能够区分 ER 随机图(指数分布 ：) 与无标度图(幂 
律分布)，但具有相同 degree-rank 幂律分布的无标度图可以有完全不同的结构.因此，仅依靠节点度的幂律分布 
来刻画无标度图的结构特征还不够，需要与其他度量结合起来. 

哈尔滨工业大学于2000年底开展了面向国家级 ISP 拓扑测量的研究.在单点测量国家级 ISP 拓扑实践 [22] 
的基础上,设计了多点测量国家级 ISP 拓扑的分布式体系结构 DRIMA(distributed router-level Internet mapping 
architecture ), 并对 CERNET 拓扑进行了多点测量实践 [23] . 本文在此基础上进一步对该测量实例进行特征分析. 

在分布函数、拓扑性质表征参数的关系方面, MitzernnacheP 研究了幂律与对数正态分布的模型，发现二者 
有密切的联系，对数正态分布可以向幂律分布转化 . C . hou [23] K 到了等级指数足与出度指数 O 之间的理论关 
*:^«1/(0 + 1) .Siganos 等人 [14] 进一步描述了等级指数足、出度指数0以及度指数 © 之间的理论 关系: 
©«0 + l ,^« l /© .Mihail 等人 [24] 则发现，在节点度具有幂律分布的图中，图的特征值以及节点度降序序列中较 
大的特征值与较大的度之间存在着近似 关系: Dam 等人 [9] 的比较研究表明,无符号拉普拉斯谱在区分不 
同图(相同规模)方面具有较好效果.其他还有对平均离心率、平均路径长度、平均跳距、最大团规模等平均或 
最大度量的讨论.另外, Watts 等人 [25] 采用群集系数 (clustering coefficient ) 度量来表征图中节点的群集情况. 

可以说，对 Internet 拓扑实例的特征分析研究还刚刚开始，需要通过大量的对实际拓扑测量实例的分析，以 
期能够从多个不同侧面深化对 Internet 拓扑结构的认识. 

2多点测量路由器级拓扑 

利用多点测量国家级 ISP 拓扑的分布式体系结构 DRIMA [2 ’ 3] , 我们于2003年4月从广州、银川和哈尔滨 
等3个测量源点对 CERNET 拓扑结构进行了测量.通过对测量数据的整理和处理,生成包含省会级和地市级城 
市的地理分布图，并与同期 CERNET 网管中心提供的骨干网拓扑地理分布图 [26] 进行了对比，发现测量的拓扑图 
基本反映了实际网络的拓扑分布.我们注意到，虽然银川是 '个测量源点，但却没有发现银川与乌鲁木齐之间的 
链路，这可能是由于该链路是备份链路，或者是由于 CERNET 网络在银川市内的路由器当时没有相应的路由配 
置所致，因为所有通向乌鲁木齐的探测路径都首先到达了西安市.我们也发现了同期北京与沈阳之间所存在的 
两条并行链路，它们起到了很好的负载平衡作用 [3] . 

选择广州、银川和哈尔滨这3个测量点形成了一个三角形，分别从3个不同的方向进行测量，目的是为了 
能够获得一个较好的 CERNET 骨干网视图.每个测量点的测量目标都是17 824个 IP 地址，分别随机选取于同 
一个地址块列表，该地址块列表由地址掩码前缀长度为24的地址块组成，覆盖了当时 CERNET 所管理的所有端 
网络 (stub network ). 这种对指定的测量范围采用端网络全覆盖的探测目标选取方法 [2] 有助于降低测量中可能存 
在的抽样误差 [27] .上述3个测量点所观察到的路由器级拓扑子图及合并图的节点数(不包括测量路径中的叶 
柄 [22] 地址、私有地址 (10.0.0.0/8,172.16.0.0/12,192.168.0.0/16) 以及主机地址)和边数(包括虚边 [22] )见表 1. 在此基 
础上，本文进一步对上述测量实例的拓扑特征进行分析. 
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Table 1 The summary information of the router level topology graphs 
derived from the DRIMA dataset 


表 1 DRIMA 数据集的路由器级拓扑图概要信息 


Probing source 

# of nodes (iV) 

# of edges (E) 

Avg-deg (2E/N) 

Union 

2 624 

3 010 

2.29 

Guangzhou 

2 066 

2 233 

2.16 

Yinchuan 

2 051 

2 204 

2.15 

Harbin 

1 788 

1 917 

2.14 


3节点度分布特征 

本节我们分别分析多点测量得到的路由器级 CERNET 拓扑测量实例有关的度分布特征.它们既反映了该 
实例拓扑的结构特征，也可用于将来观察 CERNET 拓扑特征随时间推移的对比分析. 

3.1 degree-rank 分布特征 

由3个测量点所观察到的拓扑子图及它们的合并图的 degree-rank 分布以及幕律拟合情况如图1所示.两 
个坐标轴都是对数坐标.从图中可以看出,节点度与其降序序列中的等级之间符合幂律分布，其相关系数绝对值 
ACC(absolute value of the correlation coefficient ) 都在 0.965 以上. 



Fig.l The degree-rank power law fitness of the measured topology graphs (in log-log plot ) 

图 1 测量拓扑图的 degree - rank 幂律拟合(对数坐标） 

另外我们观察到，合并图中的节点个数大于任何一个子图中的节点个数，同时，3个测量点的子图中节点度 
小于平均度的结点个数所占比重介于80.9%~81.6%之间，而合并图中相应的比重为78.3%.说明合并图的平均 
度有所上升，与表1的结果一致. 

对节点度分布高度扭曲 (highly skewed ) 的图 G 来说，删除 G 中度等于1的节点及其关联的边，得到图 G'JiJ 
G ' 是 G 的子图.重新计算 G ' 中每个节点的度.如果 G ' 仍然是度分布高度扭曲的,则我们继续用幂律进行拟合，得 
到相应的等级指数.这个过程可以迭代进行直到图中不再包含1度节点.我们发现，在子图 G 与 G 最小度相等且 
degree - rank 幂律成立的情况下，如果最小度与次小度节点个数之比增大(减小)，则等级指数的绝对值也会增大 
(减小)，即等级指数变小(大).上述3个子图的最小度与次小度节点个数的比值都小于合并图中对应的比值，合并 
图的等级指数足则下降了至少4%，即兄反映了拓扑图节点度分布的变化. 

3.2 degree 的概率密度分布特征 

由于在对数坐标下，节点度的概率密度分布与相应的频率分布是上下平移的关系，因此，我们不考察节点度 
的 frequency - degree 分布，而是考察其概率密度分布，目的是为了观察节点度的概率密度更符合哪种分布. 

我们运用最小二乘法原理，分别采用幂律 (power law ) 分布、帕雷托 ( Pareto ) 分布、对数正态 ( lognormal ) 分布 
和韦布尔 ( Weibull ) 分布，在对数坐标下进行拟合.根据残差平方和判断拟合程度的好坏，残差平方和越小，拟合程 
度就越好.这4种分布的概率密度及其补累积分布函数见表2.其中0是标准正态分布的累积分布函数. 
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Table 2 Four probability density functions and their complementary 
cumulative distribution functions 


Function name 


Power law 
Pareto (^=1) 

Lognormal (2-parameter) 


Weibull (2-parameter) 


表 2 4 种概率密度函数及其补累积分布函数 


Probability density function (PDF) 
f{x) = Cx a (C>0,«<-1) 

f(x) = cxx- a - l (a>0) 


m= 



2cj 2 J 


f(x) = (c/b)(x/by- 1 e~ {x,b)C 


Complementary cumulative 
distribution function (CCDF) 

F\x) = —^-x a+1 
a + 1 

F'(x) = x~ a 

lnx - // 

<7 


F'(x) = 0\ 


FXx) = e Hx,tr 


上述拓扑测量实例的节点度概率密度、这4种概率密度函数曲线拟合情况及相应拟合函数的形状 ( shape ) 
参数如图2所示.两个坐标轴都是对数坐标.从残差平方和的大小来看，幂律拟合效果最好, Weibull 分布拟合效 
果最差.同时我们看到,相应的 ACC 都在 0.954 以上因此，对于该实例拓扑图来说, frequency - degree 幂律成立. 

这里的 Pareto 分布实际上是一种条件更严格的幂律分布，在对数坐标系下，幂律分布的直线斜率和截距由 
形状 ( shape ) 和标度 ( scale ) 两个参数决定，而 Pareto 分布的直线斜率和截距都由形状参数决定.因此，幂律分布比 
Pareto 分布拟合得更好. 



Fig .2 The PDF of the measured topology graphs and Fig .3 The CCDF of the measured topology graphs 

each of the four PDFs fitness (in log-log plot ) and each of the four C.CDFs fitness (in log-log plot ) 

图 2 测量拓扑图的节点度概率密度及 4 种概率密度图3测量拓扑图的节点度补累积分布及4种补累积 
函数的拟合情况(对数坐标） 分布函数的拟合情况(对数坐标） 


3.3 CCDF(rf)-degree 分布特征 

分别采用这4种 CCDF 对上述拓扑测量实例的节点度 CCDF 在对数坐标下进行拟合 (不 包括最右侧 CCDF 
值为0的点)，拟合结果以及相应拟合函数的形状参数如图3所示.通过比较残差平和我们发现，与文献 [14] 不同， 
这时 Weibull 分布拟合效果最好， Lognormal 分布拟合效果稍差，而 Power law 和 Pareto 分布的拟合效果最差.这 
说明，对于某些 ISP 拓扑的节点度 CCDF 来说, Weibull 分布和 Lognormal 分布可能比幂律分布拟合效果更好. 
这与文献 [19] 的结论类似 . Spring 等人 [2()] 的研究也表明，对 ISP 拓扑来说，其节点度 CCDF 不一定符合幂律分布. 

3.4 小结 

从拓扑数据采集的角度来说，对指定的测量范围采用端网全覆盖的探测目标选取方法有助于降低测量中 
可能存在的抽样误差，从而保证了测量结果的有效性.节点度分布符合 degree - rank 幕律和 frequency - degree 幂 
律，说明 Internet 拓扑结构是极不均匀的，大量节点具有较小的度，具有很高的度的节点个数则非常少.也就是说， 
相对于正则图, Internet 拓扑的节点度分布是高度扭曲的 (highly skewed ). 因此，一般意义的最大、最小以及平均 
度量不能准确地刻画 Internet 拓扑的结构特征，幂律指数可能是一种较好的选择 [4] . 
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通过测量与分析我们发现，大型 ISP 网络结构确实满足 degree-rank 幂律和 frequency-degree 幕律性质，本次 
测量结果验证了文献 [4] 中的幂律关系.但是，其节点度的补累积分布 CCDF 却并非如此.图1〜图3表明，在对数 
坐标下，前两种分布都有长尾 Clong - tailed ：) 的特点，而 CCDF 却有重尾 ( heavy - tailed ：) 的趋势.观察这4个实例的节 
点度 CCDF 在对数坐标下的图像我们看到，它们都有某种程度的线性变化趋势，但尾部出现非线性趋势.通过计 
算对数坐标下4个实例的节点度 CCDF 数据相关系数，我们发现，它们都在 0.9662 以上，据此也可以认为 
CCDF ( rf)-degree 幂律成立.然而，从残差平方和来看，虽然它们的值都比较小(在5以内)，但幂律拟合的残差平方 
和是 Weibull 分布拟合的残差平方和的4~5倍.产生这种情况的原因可能是由于数据量比较小(不同的度值不超 
过30个)、在该范围内各拟合函数值之间差距不大的缘故. 

另外，从上述分析我们看到，自治系统级拓扑节点度补累积分布符合幂律分布 [14] ，而路由器级拓扑节点度补 
累积分布未必符合幂律分布.这从实践的角度说明，路由器级拓扑与自治系统级拓扑是两个不同层次的拓扑，因 
此，其某些拓扑特征也不同. 

4特征值分布特征 

-个无向图 G 可以用一个对称的邻接矩阵3来表示.图 G 中的节 点/和 J ' 之间有边关联，则為 y =^= l ， 否则 
.—个图的特征值就是指其邻接矩阵的特征值.代数图论理论研究发现,图的特征值与图的许多基本 
拓扑性质密切相关.因此，考察图的特征值分布特征对于了解图的拓扑性质具有重要意义. 

我们对上述 C.ERNET 拓扑测量实例的降序序列特征值分别采用幂律进行拟合后发现，尽管它们的规模各 
不相同，但对每个图来说，至少前300个特征值及其序号之间符合幂律分布，相应的 ACC 至少为0.9757,特征指 
数介于 -0.3623 和 -0.3568 之间，变化幅度不超过1.5%(前100个特征值的拟合情况更好).此外，我们也考察了前 
100个较大的特征值 2,. 和 本，发现关系片 基本成立.限于篇幅，这里省略相应的图像及其拟合情况. 

本节我们主要分析上述路由器级测量实例拓扑图的谱密度 (spectral density ), 无符号拉普拉斯谱 SLS 
(signless Laplacian spectrum ) 以及规格化拉普拉斯谱 NLS(normalized Laplacian spectrum ) 的分布特征. 

4.1 谱密度 

我们知道，图 G 的谱 ( spectrum ) 就是该图邻接矩阵 
A 的特征值集合.图的谱密度就是该图邻接矩阵 d 的特 
征值密度 ，一 般记为对于一个有限系统,可以 
写成关于特征值的5函数 的和： 

P ( 乂 )= 去 1 咐 _A)_ 

当 Woo 时，它收敛于一个连续函数.这里，木是该图邻接 
矩阵特征值降序序列中的第 Z 个特征值 [7] .谱密度反映 
的是图的特征值的分布规律. 

已有研究表明， ER 随机图的谱密度收敛于一个半 
圆，且半圆的底边部分呈指数分布 [28] .有研究 [7 , 29] 表明， 

采用 Barabasi - Albert ( BA ) 模型建模过程 [8] 生成的无标 
度 ( scale - free ) 图的谱密度收敛于- - 个对称的连续函数， 

该函数的中部呈三角形，两侧边缘部分呈幂律分布.另外，有些研究人员认为 [8] , Internet 拓扑结构可能是按 BA 模 
型生长方式形成的. 

上述拓扑测量实例合并图的谱密度分布如图4所示.为清晰起见，两个坐标轴都用 [ A / p ( l _ p )] 1/2 重新标度，其 
中#是图中的节点个数，仲是平均度. 

从图中我们观察到，它的中部并不是一个三角形，而是在 A =0 的两侧各有两个尖峰.其边缘部分呈波动衰减, 
如图4中嵌入的大图所示.对谱的边缘部分拟合表明，其边缘部分只是近似呈幂律分布，如图4中右上角嵌入的 



Fig .4 The spectral density of the measured 
topology union graph 

图 4 测量拓扑合并图的谱密度 
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小图所示(对数坐标 ；) .相应的幂指数为 -2.37, 相关系数绝对值为 0.937( 数据规模为 45). 

上述观察表明，某些实际的 ISP 拓扑图不是 ER 随机图(节点度呈指数分布，谱密度呈半圆形，边界部分呈指 
数衰减)，而是一种无标度图(节点度呈幂律分布)，但不是符合 BA 模型的无标度图(谱密度中部呈三角形，边界部 
分呈幂律衰减).另外，从 Pansiot - Grad 数据集得出的路由器级拓扑图的谱密度分布与图4类似，在1=0两侧各有 
两个尖峰. 

这些结果说明, Internet 路由器级拓扑结构的发展可能遵循一种不同于文献 [8] 中所描述的 BA 模型的生长 
过程.我们的研究与 Chen 等人 [6] 的研究从不同的角度得出类似的结论. 

4.2 无符号拉普拉斯谱 (SLS) 

一个图 G 的无符号拉普拉斯矩阵 | i | 定义为 | i |= Z > M ，其中£>是描述 G 的节点度的对角矩阵 〆 是 G 的邻接 
矩阵.无符号拉普拉斯谱 ( SLS ) 就是 | Z | 的特征值集合 [9] .代数图论理论的比较研究表明，在单位矩阵)、 /( 全 
1矩阵)的各种线性组合 M 的系数非零)中， SLS 是区分不同的图(相同规模)迄今为止效果最好的谱 [9] .也就是 
说, SLS 可能刻画图的某种拓扑性质. 

我们分析上述测量实例拓扑图的 SLS 分布特征，如图5所示.特征值降序排列，為的序号;' 已按 (;'- l )/(〗 V - l ) 

进行规格化,其中#是图中的节点个数.对该测量 
实例拓扑来说，尽管不同子图的规模不同，平均度 
不同，但 SLS 分布却非常相似，特征值等于1的重 
数都较高，而且都具有趋势极为相似的重尾 (heavy 
tails ) 特征.采用幂律拟合发现，每个子图中所有大 
于1的特征值 (798 个以上)与其降序序列的序号 
之间都符合幂律分布，特征指数很接近，相应的 
ACC 都不低于 0.972. 

另外，从图5中与 Pansiot-Grad 数据集拓扑图 
的 SLS 分布对比来看， SLS 能够表征不同测量范 
围路由器级拓扑的特征 . Pansiot-Grad 拓扑图的规 
模、平均度、测量时间及测量范围都不同于 
CERNET 拓扑测量实例图. 

4.3 规格化拉普拉斯谱 (NLS) 

一个图 G 的规格化拉普拉斯矩阵乙定义为 £= ZT 1/2 xZxZr 1/2 , 其中 L 是 G 的拉普拉斯矩阵(导纳矩阵 ， matrix 
of admittance ), 和」 的含义同上 . NLS 就是 i ： 的特征值集合 [11] .规格化拉普拉斯特征值介于0和2之间, 
升序排列为的序号为! 

我们分析上述测量实例拓扑图的 NLS 分布特 
征，如图6所示.2 ; 的序号/已按进行规 
格化. 

从图中我们看到，虽然4个测量实例拓扑图的 
规模各不相同，但 NLS 分布却极其相似，都呈3个台 
阶状分布 (不 同于文献 [11] 中自治系统级拓扑图的 
NLS 只有一个台阶的分布)，而且重数较大的特征值 
的位置(台阶)相同，分别是 0.292 893,1.0 和 1.707 
107( 其中 0.292 893和 1.707 107相对于2是互补的). 

即它们都在特定特征值点上有很高的重数.同时，对 
该拓扑测量实例来说，平均度高的子图其规格化拉 
普拉斯特征值等于1的重数也高.这可能是因为每 



Fig . 6 The normalized Laplacian spectra of the 
measured topology graphs 

图 6 测量拓扑图的规格化拉普拉斯谱 
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个源的探测目标都覆盖了测量范围内以最小用户地址分配单位表示的所有端网.此时, NLS 反映了子图与合并 
图之间的变化.另外，对 SLS 和 NLS 来说，特征值等于1的重数变化具有趋同性. 

图6中较重的虚线表示的是 Pansiot - Grad 拓扑图的 NLS 分布情况，这说明, NLS 不但能够表征不同测量范 
围自治系统级拓扑的特征 [11] ，也能够表征不同测量范围路由器级拓扑的特征. 

4.4 小结 

从分析结果可以看出，大型 ISP 网络结构确实满足 eigenvalue - rank 幂律性质，本次测量结果验证了文献 [4] 
和文献 [14] 中的 eigenvalue - rank 幂律关系，而且，对 ISP 拓扑来说，该幂律关系可能不是只对少量的特征值成立. 
此外，节点度分析表明，某些实际的 ISP 拓扑图不是 ER 随机图，而是一种无标度图，但谱密度分析表明，某些实际 
的 ISP 拓扑图不是符合 BA 生长模型的无标度图.综合有关自治系统级拓扑发展的结论 [6] ，我们认为，这种不考虑 
设计因素、具有自组织临界状态 ( self-organized criticality , 简称 SOC .) 特点的 BA 生长模型不适合于描述自治系 
统级或路由器级 Internet 拓扑的发展过程.相对地，具有优化设计特点的 HOT(highly optimized tolerance ) 生长模 
型 [15] 与 Internet 拓扑发展机制更吻合 . HOT 模型权衡了产出、资源消耗和耐风险力等因素.而成本、性能、结 
构优化等因素在 Internet 拓扑发展过程中具有极为重要的影响.文献 [16] 在 Internet 文件长度分布特征形成机制 
方面进行了研究.这是 HOT 模型分析实例的另 '个好例子. 

无符号拉普拉斯谱 ( SLS ) 分析表明，对于同一个 ISP 拓扑来说，在采用端网全覆盖的探测目标选取方法 [2] 的 
情况下，不同测量点所观察到的子图的 SLS 分布的形态可能区别不大.对于规格化拉普拉斯谱 ( NLS ) 也具有类 
似的特点.另外， SLS 分析和 NLS 分析为它们在区分不同的路由器级拓扑结构方面的能力提供了实验支持. 

5群集系数 

设无向图 G 的节点 v 的度为 <，即 v 有 rf v 个邻接节点，这些邻接节点之间最多有足 v = A (4- l )/2 条边，实际的 
边数记为 瓦, 则节点 v 的群集系数 C v 定义为 C v = 在汉 v .图 G 的群集系数 C 则定义为所有节点的群集系数的平均 
值，即 

1 N 

c=iyc,.. 

根据定义 [25] ，对所有节点 V ， 有 0 SC v S 1. 特别地,1 
度节点的群集系数为0,2度节点的群集系数或者为1， 

或者为0.图 G 的群集系数满足0 SCSI . 在朋友关系 
( friendship ) 网络中，群集系数的直观意义为 : C „ 反映了 
节点 v 的朋友之间(小集团内)也是朋友的程度， C 则度 
量了小集团的平均群集程度 p5] . 

本文中我们进一步将度值的平均群集系数 
定义为 

取， 

n j=\ 

这里 ， n =| e F ( G ), degree ( y ) = rf }| .其直观意义为: Cd 反映了相同规模的小集团的平均群集程度.不同的则 

反映了不同规模小集团的相对群集程度. 

上述 CERNET 测量实例拓扑图的节点度及其平均群集系数 G 之间的关系如图7所示.每个图像中嵌入 
的小图是相应拓扑图中节点的群集系数 C v 的分布(对数坐标.不包括群集系数为0的节点.同度节点中相同的 
(^用一个点表示). 

从嵌入的小图(对数坐标)中我们看到，一方面，同度节点的不同群集系数至多为6个，说明图中存在大量相 
似的小 集团; 另一方面，众多的非零群集系数在对数坐标下总体上沿斜率为 -2.2 左右的线性带状分布. 

从主图(线性坐标)中我们看到，一方面，度值较高的节点其群集系数较低，说明该高度节点较为重要，在其邻 



Fig . 7 The distribution of the clustering coefficients 
of the measured topology graphs 

图 7 测量拓扑图的群集系数分布 
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接节点之间提供了捷径 ( shortcut ); 另一方面，不同度值的群集系数 Q 波动较大，反映了不同规模小集团的相对群 
集程度的高低. 

另外，我们知道，谱密度的第 * 个矩可以写为从拓扑观点来看,就是图中从起 

N j = i 

点经过 A ： 步再回到起点的闭路 (closed walks ) 个数.当*=3时 ,7 VM 3 就是图中所包含的三角形的个数 . M 3 则可以看 
成是按图的规模规格化的三角形的个数.群集系数 C 与財 3 密切相关.图的规模相同时，三角形越多，图的群集系 
数也就越大.上述测量实例的路由器级和路由器接口级拓扑图的群集系数 C 以及相应的规格化三角形个数奶 
见表3.我们观察到，随着 M 3 的增大, C 也增大，基本呈线性变化.另外，接口合并也使群集系数增大. 


Table 3 The clustering coefficient (C) and the third moment (M 3 ) of the spectral density 
of the measured topology graphs derived from the DRIMA dataset 

表 3 DRIMA 数据集测量拓扑图的群集系数以及谱密度的第 3 个矩 


Probing 

source 

Router level graphs 

| Interface level graphs 

Size (AO 

C 

m 3 

Size (AO 

C 

m 3 

Union 

2 624 

0.054 871 

0.345 274 

2 866 

0.049 241 

0.297 278 

Guangzhou 

2 066 

0.029 251 

0.153 921 

2 261 

0.027 377 

0.135 338 

Yinchuan 

2 051 

0.028 917 

0.143 345 

2 242 

0.024 181 

0.112 400 

Harbin 

1 788 

0.021 743 

0.124 161 

1 961 

0.017 159 

0.079 551 


Albert 等人 [8] 的研究表明，对于采用 BA 模型生成的无标度网络，其群集系数随网络规模的增大而减小.然 
而，表3的数据表明，无论是路由器级还是接口级的测量实例拓扑图，其群集系数都随网络规模的增大而增大.类 
似于谱密度分析结果，这里从另一个角度对上述 “Internet 路由器级拓扑结构的发展可能遵循一种不同于 BA 模 
型的生长过程”这一观点提供了实验支持. 

6结论和展望 

Internet 拓扑结构测量是进一步分析 Internet 拓扑特征的基础.目前跨管理域的路由器级拓扑测量主要采用 
traceroute 机制.然而， traceroute 机制本身所测量的只是活动路由，备份路由一般不会出现在测量拓扑中,除非测 
量过程中备份路由成为活动路由.也就是说，测量得到的是选路 ( routing ) 拓扑，而不是物理拓扑，尽管在许多情况 
下选路拓扑与物理拓扑是一致的.同样地,我们的测量一般也不包含备份路由.因此，尽管我们测量所生成的路 
由器级拓扑合并图中包含有2 624个节点以及3 010条边，但这并不意味着测量的完全性.另外, traceroute 机制 
无法避免链路层设备的影响. 

尽管如此,对拓扑实例的结构特征进行分析有利于对 Internet 拓扑的结构特征进行深入了解,从而为更好地 
模拟 Internet 奠定基础.本文从多点测量大型 ISP 网络拓扑结构入手，分析了一个大型 ISP 拓扑实例的节点度分 
布、谱密度分布、无符号拉普拉斯谱、规格化拉普拉斯谱以及群集系数等度量特征.分析结果表明，大型 ISP 
拓扑的节点度分布确实具有幂律性质.但不同于自治系统级拓扑的情形，对 ISP 拓扑的节点度补累积分布来说, 
幂律分布未必拟合得最好.另外, Internet 路由器级拓扑的发展可能遵循一个不同于 BA 模型的生长过程. 

Internet 拓扑结构特征分析受到学术界广泛关注，人们在揭示 Internet 拓扑特征方面已经做了许多工作.然 
而，无论是自治系统级还是路由器级的 Internet 拓扑特征分析研究都还刚刚开始，相应的分析理论还不成熟，究 
竟哪些参数能够最好地刻画 Internet 拓扑结构的性质尚不清楚，自治系统级拓扑与路由器级拓扑除了节点粒 
度、连接关系涵义以及拓扑层面等方面不同之外，其拓扑特征还有哪些本质区别等等，这些都需要通过大量的 
对实际拓扑测量实例而不是综合 ( synthesized ) 拓扑的分析，结合数据挖掘、代数图论、复杂网络统计动力学理 
论以及网络部署中的经济因素等等，归纳总结出典型的特征参数，形成一套 Internet 拓扑特征分析理论，为 
Internet 的发展服务. 
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一种面向网络安全检测的高性能正则表达式匹配算法 
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摘要 目前进行正则表达式匹配的典型工具 DFA 和 NFA 都存在匹配效率和内存需求之间不可调和的矛盾，无 
法胜任网络安全检测中大规模正则表达式的匹配.为了解决这个问题，文中从网络安全检测的行为特点出发，结合 
DFA 、 NFA 模型各自的特性，提出了一种基于猜测-验证的匹配方法.首先使用 DFA 对正则表达式中的部分子特征 
进行搜索，完成特征存在性的猜测；当猜测到有可能匹配某个特征后，再使用 NFA 进行验证.文中方法既充分利用 
了 DFA 的高效性，减少了对相对较慢的验证过程的调用，又借助 NFA 避免了内存消耗过于巨大.结果表明，该方 
法可以在大大减少内存需求的情况下，实现正则表达式的高效匹配. 

关键词 特征匹配；正则表 达式； 有穷自动机；子 特征； 猜测-验证 
中图法分类号 TP 393 DOI 号： 10. 3724/ SP . J . 1016. 2010. 01976 

An Efficient Regular Expression Matching Algorithm for 
Network Security Inspection 
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Abstract Signature matching has been one of the key techniques in network security because of 
its high efficiency and exactness . As the attacks and malwares on network are becoming more 
complex , regular expressions which are more expressive than exact strings are widely used in va ¬ 
rious security systems . However , the strong description capability also makes the matching of 
regular expressions faces serious challenges . Traditionally , regular expression matching is based 
on either DFA or NFA . However，both of them have an irreconcilable contradiction between 
memory requirement and processing speed , which makes them impractical on large-scale rule set . 
In order to address this issue , this paper proposes a matching algorithm based on guessing and 
verification . It first searches special sub patterns of each rule by DFA , and checks the result by 
NFA once the previous guessing is successful . This algorithm takes advantage of the high pro ¬ 
cessing efficiency of DFA and compact representation of NFA . It can improve the matching effi ¬ 
ciency by reducing the frequency of calling the slower verification behaviors . The result shows 
that this proposal can provide a high throughout as well as a moderate memory requirement . 


Keywords signature matching ； regular expression ； finite automaton ； sub pattern ； guessing and 
verification 
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1引言 

在网络上的信息随时间呈指数增长的今天，网 
络安全的4个重要任务就是阻止有害信息在网络上 
蔓延以及机密信息通过网络泄露.使用特征匹配技 
术对数据进行搜索是发现这种有害信息流的基本手 
段之一.在网络安全检测中，特征匹配的特点是规则 
数量多且对实时性要求高.作为重要的支撑技术，匹 
配算法性能的好坏是影响系统性能的决定性因素之 
一. 对于精确字符串匹配，过去的几十年里从理论到 
技术都已经进行了深人的研究，并取得了重大的突 
破，出现了多个接近理论性能上限的算法，如 AC 、 
WU - MANBER 、 SBOM 等等.这些经典算法在网络 
安全检测中发挥了巨大的作用.然而，随着网络的不 
断发展，攻击者也在不断地针对各种安全检测技术 
进行躲避和隐藏，这使得网络中的攻击和恶意代 
码变得越来越复杂，简单的精确字符串模式已经 
难以准确地描述其特征.因此，正则表达式以其强 
大、灵活的表达能力，迅速成为描述新一代规则的 
主要工具，开源社区和商业界都开始广泛使用正则 
表达式来增强协议特征和安全特征的描述.例如 
Linux 应用层协议分类器 （Linux Application Pro ¬ 
tocol Classifier , LZ - filter ®) 就全部采用正则表达式 
来识别100多种应用层协议.人侵检测系统 Snort © 
的过滤规则在2003年以前全部为精确字符串，但最 
新发布的规则集中，正则表达式的比例已经超过了 
40%.人侵检测系统 Bro © 也直接使用正则表达 
式来描述它的过滤规则.在商业市场上， 3 Com 的 
TippmgPoint X 505 ④以及 Cisco 的各种网络安全系 
统®，都开始使用正则表达式.目前 Cisco 已经将基 
于正则表达式的内容检测集成到了其网络操作系 
统中. 

使用正则表达式来描述攻击的特征，比传统的 
提取精确字符串方法更准确、方便和有效，然而其强 
大的能力也令它在实际应用中面临诸多的挑战.有 
穷自动机 ( FA ) 和正则表达式所表示的语言都是正 
则语言，因此有穷自动机通常用来实现对正则表达 
式的匹配.有两种典型的有穷自动机可以完成这个 
任 务：非 确定型有穷自动机 （ NFA ) 和确定型有穷自 
动机 （ DFA ). NFA 的优点是空间复杂度比较低，其 
状态数目与正则表达式的长度呈线性关系.然而在 
处理每一个字符时， NFA 必须逐个处理活动状态集 
合中的所有状态，匹配效率非常低.相比之下 ， DFA 


处理 S 个字符则只需要访问一个状态.但若将每条 
正则表达式编译成单独的 DFA ， 其时间复杂度将随 
着规则数目的增多而增大，而将所有的正则表达式 
编译成一个混合 DFA 时，又会导致其空间需求大 
大增加，当前的硬件条件将无法满足如此大的内存 
需求.例如在 L 7- filter 中，当规则数目为40时，其 
DFA 的状态数目将超过136000，内存需求为 
1.5 GB 以上由于 DFA 和 NFA 在内存需求和处 
理效率上的矛盾，它们都不能同时满足网络安全检 
测中处理大规模规则集和实时性的要求.针对这种 
情况，近些年来出现了一系列的研究 .UC Berkeley 、 
Bell - Labs 以及 Google 的 Yu 等人首先系统地论述 
了正则表达式在网络安全检测和协议识别中的优 
势，对不同的匹配方法进行了分析和评价，并提出了 
规则改写和分组匹配等方法.随后由于 Cisco 公司 
的推动 ， Washington University 的 Kumar 和 Becchi 
等人对这个问题进行了更为深人和细致的研究， 
提出了 D 2 FA C 2] 、状态合并 （State Merging )™, 
H - FA [1 」 、混合自动机 （ Hyb ri d - FA ) [5] 以及 XFA C6] 
等方法来实现大规模正则表达式的实用化.这些工 
作大大提高了某些特殊类型正则表达式的实用化和 
匹配效率.国内对高性能正则表达式匹配技术的研 
究也在不断加强，哈尔滨工业大学网络与信息安全 
技术研究中心、清华大学、国防科技大学、中国科学 
院计算技术研究所以及国家互联网应急响应中心等 
等，都已投人到这一关键技术的研究中. 

本文从网络安全检测的行为特点出发，结合 
DFA 、 NFA 模型各自的特性，提出了一种基于猜测_ 
验证的匹配方法.这种方法考虑到了网络中的数据 
只有很少，部分是带有攻击的恶意数据，因此使用 
猜测过程分检出不值得怀疑的正常数据，而只对少 
数具有部分恶意特征的数据进行验证.由于使用了 
DFA 和 NFA 两种不同的模型来分别完成猜测和验 
证，本文方法可以在大大减小内存需求的情况下，实 
现正则表达式的高速匹配.本文第2节对当前的主 
要研究成果进行分类 介绍； 第3节对基于猜测-验证 
的匹配方法的原理和实现进行详细地描述和 分析； 
第4节对第3节提出的方法进行 扩展； 第5节给出 


① Application Layer Packet Classifier for Linux, http： / /17- 
filter. sourceforge. net/ 

② Snort 2. x. x[EB/OL]. http： // www. snort, org 

③ Bro Intrusion Detection System. http://bro-ids.org/Over- 
view. htm 

④ TippingPoint X505. http : // www. tippingpoint. com/prod- 
ucts_ips. html 

⑤ Cisco IOS IPS Deployment Guide, http：//www. cisco, com 
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实验结果，并与当前代表性方法的结果进行对比分 
析; 第6节是最后的结论，同时对未来的工作进行 
展望 • 

2相关工作介绍 

要想对正则表达式进行实际应用，必须降低 
NFA 处理一个字符所需要的时间或者减少 DFA 所 
需要的内存空间. NFA 的时间复杂度是由其理论模 
型所决定的，所以在不改变处理器体系结构的情况 
下，很难对其进行改进，当前的大多数研究都集中于 
对 DFA 的内存进行缩减，这些研究可以大致分为 
两类，下面就分别对其中的代表性方法进行一下简 
要介绍. 

DFA 的主要存储消耗为一个 》X |2|的二维转 
换函数表，其中《为状态数目，|2|为字母表大小. 
它占用 DFA 空间的95%以上，因此缩减 DFA 的 
第1类方法是缩减 DFA 的转换表.要缩减二维表， 
第1种方法是缩减其列数.陈曙晖等人 [7] 提出一种 
基于集合交割的方法来对输人字符进行预编码，文 
献 [3] 和文献 [8] 中则提出了等价类分割的方法.这 
两种方法都是通过将整个字母表分成多个不相交子 
集，并使用子集来代替字母表中的元素，从而减少表 
的列数.文献 [9] 则进一步将状态和输人字符进行联 
合编码来提高对字母表的压缩效果.第2种缩减二 
维表的方法是减少表项，使其成为稀疏表. 2006年 
Kumar 等人在文献 [2] 中首先提出了 D z FA 的方 
法，其基本思 想是: 如果两个状态 s 和 i 对于相同的 
字符具有相同的跳转目标，则在其中一个状态 s 中 
去掉所有和 f 中等价的表项，然后再引人一条从 s 
到^的转换，称为缺省转换 （default transition ), 它 
不需要输人字符也能进行跳转，这种方法可以消除 
大量的转换表项. Kumar 还在文献 [10] 中对这种方 
法进行了改进，提出了 CD 2 FA ， 以便在引人缺省转 
换的情况下也能通过访问一个状态完成一个输人字 
符的处理 . Becchi 在文献 [11] 中提出了另一种简单 
且有效的改进办法，即使用状态的深度属性生成 
D 2 FA . 在处理一个长度为》的字符串时，这种方法 
访问的状态数目不大于2». 2008年 Ficara 等人在 
文献 [9] 中提出了 SFA 结构，这种结构中每个状态 
仅仅存储与其相邻状态不同的表项，而其余表项直 
接从其父节点继承而来.为了进步消除转换项冗 
余，文献 [3] 中提出了状态合并 （State Merging ) 的 
方法.其基本思 想是： 如果两个状态具有目标相同 
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的转换表项（无论是否对应于相同的字符），则将 
两个状态合并起来，形成一个混合状态，这样就大 
大减少了转换表的行数.文献 [12] 中提出了转换 
表共享方法来改进状态合并方法.上述冗余消除 
的方法虽然可以消减掉 DFA 中90%以上的转换 
边，但却无法彻底解决 DFA 的空间占用问题.因 
为 DFA 的内存是随状态数目呈平方级甚至指数 
级的增长，但转换的消除只能是线性的缩减.因为 
无论怎样缩减，要想保持与原始 DFA 的等价性， 
都至少要保持其状态之间的连通性，即保持树形 
结构. 

使用 DFA 进行匹配的第2类方法是在匹配中 
不再使用原始的 DFA 结构，而是使用 NFA 和 DFA 
的混合结构或者改进的 DFA 结构，从而避免 DFA 
状态的膨胀. Yu 等人在文献 [1] 中提出了将正则表 
达式规则集进行简单分组的思想.而文献 [13] 中则 
提出一种更加合理的分组策略 ：它首 先定义膨胀率 
DR 来描述正则表达式的空间膨胀特性，然后基于 
DR 提出^种分片算法，这种方法有效地选择出导 
致 DFA 状态膨胀的片段并进行隔离，从而降低了 
单个正则表达式的存储需求.同时文中还基于正则 
表达式的组合关系提出了 一种选择性分组算法.对 
规则进行分组匹配实际上是在广义上使用了 NFA 
的组织形式，只是每次转换的活动状态数目是一定 
的(等于分组的数目）.文献 [5] 中将这种方法进一步 
推广和细化，提出了 Hybnd - FA . 其特点就是首先 
将整个规则集编译成一个 NFA ， 然后只将一部分 
NFA 转化成 DFA , 形成 DFA 状态和 NFA 状态同 
时存在的情形，匹配时对两种不同的状态使用不同 
过程. H - FA M ft XFA [6 ’ 14 MU 引人了额外的信息来 
对 DFA 的匹配过程进行记录，从而大大减少了 
DFA 为了记录各种不同情况所需要的状态数目.文 
献 [4] 还提出一种方法，依据字符出现的概率将正则 
表达式划分为前缀和后缀两部分，并使用不同的自 
动机 （fast path automaton and slow path automa - 
ton ) 分别进行处理，通过减少对速度较慢的后缀匹 
配的调用来提高整个系统的匹配效率. 

本文的方法借鉴了上述的研究成果，但又不同 
于上述研究.本文方法分为猜测和验证两个步骤，分 
别由单独一个 DFA 和一组 NFA 来完成，但是并不 
将它们编译在一个统一的结构中，而是在 DFA 的 
接受状态和 NFA 之间建立联系，以便完成猜测后 
的验证.本文方法中也使用额外的信息来辅助匹配， 
但并不试图使得到的 DFA 和经典方法构建的 DFA 
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完全等价，而是为了针对网络安全检测的特点，将同 
一个正则表达式的两个邻接子特征的匹配结果关联 
起来，使猜测更准确并保证匹配结果的正确性. 

3基于猜测-验证的正则表达式匹配 

3.1 网络安全检测中的正则表达式匹配 

网络安全中使用正则表达式作为匹配规则，是 
为了能够更准确地捕获各种攻击和恶意代码的特 
征，这与用它来表示形式化语言的初衷有着很大的 
不同，这些不同也正是本文的基本出发点.首先，检 
测规则更加注重描述攻击行为的多个阶段或恶意代 
码多个部分之间的逻辑关系与位置关系，所以网络 
检测类的应用中所使用的规则一般都可以明显地分 
成若干个部分，如图1所示.图中每个部分表示一个 
完整规则的子特征，下文中称为 SU b _ patt ern ， 子特 
征之间用正则表达式的运算符连接 起来; 第二，网络 
安全检测所关心的结果并不是两种不同形式语言的 
等价性，而是更注重验证正则表达式所描述特征的 
存在性.因此这里的匹配更确切的说法应该是搜索 
(为了保持一致，下文仍称之为匹配）.第三，在网络 
检测中，通常对要检验的数据没有任何先验知识，因 
此不知道在输人数据中是否存在一个子串能够命中 
规则集中某个正则表达式，也不知道这个子串从哪 
里开始.通常的做法是假定匹配子串可能在任意位 
置出现，从而在每个不是以”开始的正则表达式 
前面加上”操作符，但这种做法也导致了自动机 
所需要内存的增多.第四，网络检测中，匹配是一个 
短暂但频率很高的动作，通常是以包或者流为输人 
单位，并且只有极少数输人才能完全命中某个完整 
特征，绝大多数被检测的数据都是正常数据，不含有 
任何目标特征. 


sub 一 pattern j 

㊉ 

sub 一 pattern 2 

㊉ ...© 

sub_pattem fe 


图1安全规则的示意图（ ㊉ 表示正则运算符) 


3.2 基于猜测-验证的匹配算法 

DFA 和 NFA 的结构都可以看成是一个有向 
图，其中状态构成图的顶点，状态之间的转换构成有 
向边.上面的分析中提到，在网络安全检测中只有极 
少数输人才会命中特征.假设初始状态的深度为0, 
那么这个特点反映在具体的匹配过程中则表现为大 
部分遍历行为都只是访问图的浅层顶点，这部分顶 
点只占整个图的一小部分.深度比较大的顶点则必 


须当某个输人和特征吻合程度较大乃至完整匹配到 
某个特征时才会被访问.直接使用原始 DFA 来进 
行大规模正则表达式匹配之所以不可行，就是因为 
它需要将所有的正则表达式完整地表示在一个结构 
中，而安全规则中将多个 sub _ pattern 连接成一个 
整体的时候使用了特殊的操作符，这些操作符导致 
了 DFA 状态数目的剧烈增长，从而带来在现有资 
源下无法接受的内存消耗.这种将规则全部编译到 
一个 DFA 中的行为，不仅造成了 DFA 的内存需求 
不可接受，同时也不符合当前计算机结构的分级内 
存体系特点，从而降低处理效率.因为匹配类算法的 
过程主要是通过查表来进行，它的时间消耗取决于 
访存的次数和 cache 的使用效率 [15j . 

为此本文提出了基于猜测-验证的匹配方 法：它 
首先从整条规则中还原出各个 sub _ pattern ， 然后以 
sub _ pattern 的出现为依据来猜测一个输人是否有 
可能匹配某个特征.只有某个输人通过猜测后，才进 
行最后的完整性验证.验证过程主要是检验各个 
sub _ pattern 之间是否符合一定的逻辑和位置关系， 
即处理图1中所示的连接符号.本文主要针对 
“ w *]*” 和 “[' lC2 … 

4类连接符.因为以往的大量研究表明，正是这些操 
作符导致了在使用子集构造法从 NFA 生成 DFA 
时状态数目的剧烈增长.这种方法有两个 好处： 
(1) 在提取的时候选择那些简单形式的 sub _ pattern , 
从而可以将这些 sub _ pattern 放在一起形成一个混 
合的 DFA 结构而不会引起巨大的内存需求，使猜 
测过程可以依靠 DFA 快速完成 .（2) 猜测过程可以 
将大部分输人过滤掉，只剩下少数能命中某条规则 
中所有 sub _ pattern 的数据才需要进行完整的验证 
过程，因此可以使用速度相对较慢但内存需求对操 
作符不敏感的 NFA 来完成. 

为了描述方便，规 定: R 表示正则表达式集合 ，r 
表示 i ? 中的某一条正则表达式，即 {q 6 i ? | 1 < 
\ R \}. M 表示每个正则表达式中 sub _ pattern 的数 
目，表示，的第 々个 sub_pattern ( l < k < : M ). S 
表示 sub _ pattern 组成的集合，而由只属于 r ； 中的 
sub _ pattern 组成的集合则表示为 S " 由 r ; 形成的 
NFA 表示为 iNFA ,， 所有 s _ NFA 形成的集合称 
SS _ NFA . 字符串用 T 表示，: T 的子串用^表示， 
不同的子串用下标区分.基于猜测-验证的正则表达 
式匹配算法其预处理和匹配过程如算法1和算法2 
所示. 
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算法 1. pre_process (R). 

//预处理过滤规则，构建猜测用的 DFA 和验证用的 
NFA 

1. S= 0 f S_NFA = 0 

2. for (each r, Gi^) do 

3. Sj = extract_sub{rj ) 

4. S=SIJS y 

5. for ( 是 =1 to M) do 

6. iKsj, k G Sj ) then 

7. set_map(mapj 

8. end if 

9. end for 

10. s_NFAj = build_NFA(Sj) 

11. S_NFA = S_NFA U s_NFAj 

12. end for 

13. DFA = build—DFA(S) 

算法 2. Match (DFA , S_NFA , T). 

// 对输人数据 T 进行匹配 

1. for (each p^ ： T) do 

2. state = dfa_match (DFA^p) 

3. if (stated DFA.accept_states) then 

4. for (each s_NFAj in state.rule_list) do 

5. set 一 bitimapj ， Q ， state.index_list\_j ]) 

6. if (map』==0) then 

7. nfa_match(s_NFAj > T ) 

8. end if 

9. end for 

10. end if 

11. end for 

算法 i 给出了预处理过程.对于每个正则表达 
式 O ，首先从中抽取出若干个 sub_pattern 作为猜测 
条件 . 为了对同一正则表达式中的多个 sub_pattern 
进行记录，算法中使用了一个 bitmap 型变量 map 
来追踪各个 sub_pattern 的出现情况 . 如果个 r ; 的 
第々个 sub .pattern 被抽取作为猜测条件，那么 
map 的第々个 bit 则会被函数设置为 1 ;预 
处理过程为每个 ~ 构建一个 s_NFA , ，并在最后使 
用选取出来的全部 sub _ pattern 构建一个混合 
DFA. 需要注意的是，不同的正则表达式中可能存 
在相同的 sub_pattern ， 所以 ■^ 个 sub_pattern 可能 
与多个正则表达式相关联 . 为了记录这种关联，在 
DFA 的接受状态中增加了两个 链表： rul e _list 和 
index_list. rule_list 用来记录包含这个接受状态所 
代表的 sub_pattern 的所有正则表达式， index_list 
用来记录这个 sub_pattern 在相应 map 中的索引 


位置 ■ 

算法2对匹配过程进行了描述.对于—个输人 
字符串 T ， 匹配过程首先使用算法1中构建的 DFA 
逐个处理每个字符，如果访问到了一个接受状态，则 
更新其对应 rule _ list 中所有规则的 map 结构，但只 
有在同一个输人 T 中找到某个所对应的全部 
sub _ pattern 后才会将这个数据交由相应的 s_NFA 
进行完整的验证.需要注意的是 ：同一 个表达式中的 
sub _ pattern 不需要按顺序出现，且预处理中生成的 
map 结构并不参与真正的匹配过程，而是在每次匹 
配前作为模板来生成对应的实例，每次匹配过程的 
操作都是在其实例上进行. 

3.3 算法分析 
3. 3. 1正确性证明 

在网络安全应用中，匹配就是在给定规则集 K 
和文本: T 的情况下，找出 了中是 否存在一个或者多 
个恰好是正则表达式。 G -, e K ) 所表示的语言的子 
串 L 如果了的某个子串；，是 G 表示的语言，则称 G 
匹配 G .如果能够在： T 中找到匹配则称 T 被 
命中.下面证明本文提出的基于猜测-验证的匹配结 
果与使用 NFA 匹配的结果相同. 

定理 1 . : T 在基于猜测-验证的匹配中被命中 

当且仅当它在 NFA 的匹配中被命中. 

证明.由于猜测-验证法在最后一步使用了 
NFA 进行结果验证，因此能够被猜测-验证法命中 
的: T 必然也会被 NFA 命中. 

假设一个输人 T 能够被 NFA 命中.不妨设子 
串？，匹配了 o ，那么《，必然可以匹配所有的 s hk e 
Sj. 而预处理过程中从 r ; 中抽取的 sub_pattern 集 
合是 S , 的子集，因此必然可以匹配 q 的所有猜测 
条件，因 此了 会被输人到中进行验证.所以 
了必 然也会被猜测-验证法命中.当： T 中出现多个匹 
配子串时，情况与此类似.得证. 证毕. 

3.3.2 算法性能分析 

下面对猜测-验证法进行一下讨论和分析，给出 
影响其性能的因素和优化策略.从算法2中可知，本 
文方法对 — 个输人的处理由两部分组成 ：使用 DFA 
来完成的猜测过程和使用 NFA 来完成的验证过 
程.假设对于输人字符串 r ， 使用 DFA 处理它所需 
要的时间为 DKr )， 使用 NFA 处理它所需要的时 
间 为 Nt ( T ), 处理过程中验证过程被调用的概率为 
P ， 则处理： T 所需要的总时间为 

Dt ( T )+ PNt ( T ) (1) 
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从式 （1) 中可以看出，在给定规则集和输人 ： T 
的情况下，基于猜测-验证匹配算法的时间复杂度的 
决定性因素在于验证过程的调用概率 P ， 当 P 很小 
时，猜测-验证过程的效率将接近 DFA . 

进行猜测-验证时，当且仅当预处理时从同一个 
正则表达式中提取出来的所有 sub _ pattern 都被命 
中时，才会将数据送人相应 NFA 中进行一次完整 
的验证过程.假设从某一条规则^中选择了 w 个 
sub _ pattern ，且被命中的概率为 
九（0<九<1). 则数据会被规则 o 生成的 NFA 进 
行验证的概率可以用式 （2) 来表示，而在一次处 
理过程中验证过 i 被调用的概率 P 可以用式 （3) 来 
表本. 

Pr. = JX P k (2) 

k = \ 

\R\ 

P = J ] Pr _ (3) 

i=\ 

可见，预处理过程中选取出来的 sub_pattern 
数目？《越大或者每个 sub _ pattern 的命中率九越 
小，那么调用 NFA 进行验证的概率 P 越小.因此在 
进行预处理时，要遵循以下两条 原则： 

(1) 优先选取那些较长的纯字符串作为 sub _ 
pattern . 因为一个字符串被命中的概率通常取决于 
它的长度以及它所包含字母的出现概率和分布.通 
常认为每个字符的出现概率是相同的（每个字符出 
现的概率是1/256)，因此一个串的长度越长，其命 
中的概率越小.同时，纯字符串不会引起猜测用的 
DFA 的内存需求剧烈增长. 

(2) 要选取尽量多的 sub _ pattern 参与猜测.但 
需要注意的是，检测规则中，一些词组的出现概率可 
能要更高 d 些，特别是一些协议控制字段.例如在 
snort 系统的 backdoor 规则集中 “ server ” 出现了 24 
次.如果选取它作为 sub _ pattern ， 那么在每次命中 
这个 sub pattern ，都要对24条规则的 map 进行 
逐个更新.这会严重影响处理速度，因此不能人选作 
为 sub _ pattern . 

4定序的猜测 -验证 

算法2是一种理想的匹配方式，因为需要经 
NFA 验证的数据将会极少，绝大部分正常数据都会 
在经过 DFA 处理之后直接过滤掉，其平均的处理 
效率与 DFA 相当.然而，使用这种方法有一个前 
提： 整个特征必须出现在同一次输人数据中，例如短 


信息内容过滤或者病毒检测等应用.若是特征分散 
在两次或者多次输人中，就必须对数据进行缓存，否 
则将无法完成验证过程.在实际的网络中，安全检测 
通常是要以流为单位的，而各个流的数据包到来顺 
序是不确定的.为了能对分散到达的数据进行正确 
的匹配，有两种解决办法： （1) 将流进行 缓存； （2) 改 
进匹配算法，使得验证部分以只需要猜测成功后的 
“剩余”数据，而不需要进行回溯.在高速网络环境下， 
以当前的硬件条件对数据包进行缓存显然是不可能 
的，因此，本文将简单的 bitmap 进行扩展，为上文中 
提到的4种连接符分别设计了一种 e - map(extended 
map ) 结构，来实现无回溯的定序猜测-验证. 

4. 1 e-map 结构 

对 Thompson 构造法进行分析可以知道，如果 
不考虑“失效”转换的话，则 NFA 的结构类似于 
棵树，且其接受状态总是出现在“叶子”节点处.在 
NFA 中命中一个特征的过程是不需要回溯的，因为 
通向一个接受状态的路径只包括向深度更大的状态 
的转换以及向当前状态自身的转换.因此要想在猜 
测成功之后只需要对“剩余”的数据进行验证，一个 
简便的办法就是只从每个表达式中取一个简短的前 
缀作为对本条规则的猜测条件，但是对于某些正则 
表达式来讲，这会大大提高其猜测成功的可能性，从 
而频繁地调用验证过程，降低系统的效率.为此本文 
针对上文中提出的4类不同连接操作符，将原来的 
bitmap 中的 bit 扩展成一个 e - map 结构，下面分别 
对其进行描述. 

(1) * ”在规则中的实际意义是要求被连接的 
两个 sub _ pattern 按顺序出现，而不管它们之间的 
距离和字符.因此它不需要额外的字段来记录其它 
信息，其本身的出现就表明了条件已满足. 

(2) “[— C! c 2 … c t ] * ”要求被连接的两个 sub_ 
pattern 按顺序出现，并且它们之间不能出现集合 
{ C !， c 2 ，… ， c t } 中的字符.例如有些攻击必须使特殊 
数据出现在同一行，而不能被/〃和 A •分隔开.不过 
这个连接符只是关注这些字符是否出现过，而不管 
它们出现的次数和位置.因此为它增加一个表示字 
母表的位图 (alphabet_bitmap) ，位图中每个 bit 表 
示字母表中的一个字符.在匹配过程中，通过对这些 
bit 进行置位来表示其对应的字符是否出现过. 

(3) “.{ w }” 要被连接的两个 sub _ pattern 按顺序 
出现并且它们之间要有》个字符的距离.但并不对 
字符的种类进行要求.因此为它增加一个距离计数 
器 distance , 初始值为》，在匹配过程中对其进行更 



1982 

新操作来表示是否满足距离要求. 

⑷叩〜士…“^”不但要求被连接的两个 
sub _ pattern 按顺序出现以及二者之间要有 h 个字 
符的距离，还要求间隔的》个字符中不能出现集合 
{ Q ，。 ，…， c *} 内的 字符. 因此它需要在第3类 e-map 
结构的基础上再增加一个表示字母表的位图 
( alphabet _ bitmap ). 在匹配过程中，不但要对 distance 
做记录，还需要对位图中的 bit 进行置位以记录字 
符的出现情况. 

4.2 定序的猜测-验证匹配 

有了针对每一种连接操作符的 e - map 结构， 
预处理时就可以用和算法1相似的过程来构建猜 
测用的 DFA 和验证用的 NFA ， 在此不再详述.下面 
主要介绍一下猜测和验证的过程.首先给出如下 
定义. 

定义 1. 在预处理所形成的 DFA 中，每个正 
则表达式中被抽取的最后一个 sub _ pattern 所形成 
的接受状态，称为终结接受状态，其余的接受状态称 
为中间接受状态. 

定义 2. 在预处理所形成的 NFA 中，最后一 
个 sub _ pattern 的下一个字符所形成的状态称为开 
始状态. 

因为算法要处理多个流并发的情况，因此每个 
流都有一个属于自己的 e - map 实例列表.当这个流 
中的数据有效命中了某一个 sub _ pattern 的时候， 
就会将这个 sun _ pattern 所关联的全部 e - map 模板 
拷贝一份放在这个流的 e - map 列表中形成实例，并 
赋予每个实例一个唯一的 id . 对于同一个流来讲，如 
果重复命中 1 —个 sub _ pattern ， 则有可能导致多次添 
加同一 e - map 模板的实例，但这些 e - map 实例的 id 
是不同的.一旦某个 e - map 实例在处理某个流的过 
程中被创建并添加到这个流的 e - map 列表中，那么 
在处理这个流随后的数据时，也会同时对这个 
e - map 实例的状态进行更新，直到它被从列表中移 
除.每一种 e - map 实例的移除条件如 下：第 1类 
e - m a p 实例只有在对这个的流处理结束时候才会被 
移除.第2类 e - map 实例被创建后，会在遇见第一 
个属于其 alphabet _ bitmap 中的字符时被移除•第3 
类 e - map 实例被创建之后，会在连续处理 distance 
个字符之后被移除.第4类 e - map 实例被创建之 
后，会在第一次出现属于其 alphabet _ bitmap 中的 
字符时或者连续处理 distance 个字符之后被移除. 
位于每个正则表达式开始处的 sub _ pattern 的每一 
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次命中都直接算作有效命中，而其它 sub_pattern 
被命中时，首先要查看这个流的 e - map 列表中是否 
还有由其前驱所创建的 e - map 实例.如果存在，说 
明其前驱已经被命中过，并且如果这两次命中之间 
的字符满足它们之间连接操作符的限定关系，就将 
其设置为有效命中，并创建它所对应的 e - map 模板 
的实例.如果不存在，说明其前驱没有被命中过或者 
中间间隔的字符已经不满足它们之间的限定关系， 
因此为无效命中，不做其它处理. 

一旦终结接受状态被有效匹配，说明已经完成 
了一次成功的猜测，需要进行下^步的验证过程.需 
要注意的是，每次验证过程不是从 NFA 的初始状 
态开始，而是从 NFA 的开始状态开始进行.由于只 
需要验证剩余的字节流是不是能够匹配正则表达式 
被提取的最后个 sub _ pattern 之后的部分，因此 
在 NFA 的每: rr 步中，会排除活动状态集合中位于 
开始状态之前的状态，因为位于开始状态之前的匹 
配会在猜测中完成.如果某一步所得到的活动状态 
集合全部位于开始状态之前，那么就可以终止验证 
过程.在验证过程中，如果访问到 NFA 的接受状 
态，则表示验证成功，当前数据流成功地命中了一个 
特征. 

5实验结果与分析 

高性能正则表达式匹配算法的主要评价指标有 
两 个:处 理速度和内存需求.本节将在实际规则集上 
给出本文方法在这两方面的性能评测结果，并与 
Hybrid - FA 方法的结果进行比较和分析.实验中使 
用 RegEx ® 工具集将正则表达式转化成 DFA、NFA 
以及生成对应规则集的 trace 数据. 

5.1 正则表达式规则集分析 

实验采用的正则表达式来自 Snort 人侵检测系 
统和 Linux Layer - 7 filter ( L 7). 虽然 Snort 系统中 
有数千条正则表达式规则，但是它们并不会同时被 
启用，因为 Snort 是在分析完数据包的头部之后才 
进行内容部分的检查.本文中选取了其中的两 大类： 
web - misc 和 backdoor . 本文中将 “x + ” 类型的符号 
都改写成了等价的“ XX *”的形式，并在统计时将 
“.{ w ，„} ”与视为同类.下面在表1中给出 
3个规则集各自的特性. 


① Regex http ： //regex, wustl. edu/index. php/Main_Page 
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表 1 不同规则集的特性 

规则集 

名称 

规则 

数目 

各种操作符的 
数目 

含有 4 种操作符之一的 
规则数目 

猜测使用的 
sub_pattern 数目 

定序猜测 
sub_pattern 数目 

原始 NFA/DFA 
状态数目 

web-misc 

55 

3/75/0/31 

53 

79 

73 

7615/>3000000 

backdoor 

153 

9/388/0/10 

130 

356 

261 

3364/>3000000 

L7 

89 

23/33/23/3 

57 

142 

133 

1450/>3000000 


表中第2列给出了每个规则集的规则数目，规 
模从50条递增到150条左右.第3列给出了规则 
集中4种连接操作符的出现次数 . 4个用“/”号分 
开的数目顺次对应 *”、“[' lC 2 …”、“.{幻”、 
“[〜 lC 2 …可以看出，在 Snort 规则集中，出 
现最多的是 [~ Cl c 2 …类型的操作符.特别是 
backdoor 规则集中，这种操作符在每条规则中出现 
将近3次.而 L 7 规则集中前3种操作符出现的次数 
都比较多.第4列中给出了每个规则集中至少带有 
—个连接操作符的规则数目.可见，连接操作符在实 
际的过滤规则中是十分普遍的，特别是在 Snort 的 
两个规则集中，占了 90%左右.第5、6列给出了本 
文实验中所选取的 sub _ pattern 的数目，选取的原 
则如第 3.3.2 节所述.最后一列则给出了用这些规 
则直接构建有穷自动机时，所得到的 NFA 和 DFA 
状态数目.表中 DFA 的状态数目为一个范围，因为 
三组规则在构建过程中都因为状态超过3000000 
(内存需求超过 3 GB ) 而无法构建成功，可见当表达 
式中包含有特殊连接符时 DFA 所需要的内存是十 
分巨大的.需要注意的是，虽然 web - imsc 规则集比 
较小，但是它所形成的 NFA 自动机数目是最多的， 
这是因为在 web - m 1 SC 的规则中，出现了很多第4种 
类型（[〜 lC 2 … Ct ]{ W }) 的连接符，并且《的值都比较 
大（最大的为1024)，因而出现了大量的重复状态. 
5.2 性能评价和分析 

下面给出本文方法的内存需求以及处理速度，并 
与 Hybrid - FA 方法在相同条件下的结果进行对比. 
5.2.1 内存需求 

表2〜4中分别给出了本文方法和 Hybrid-FA 
方法在完成预处理后的内存占用情况.对于本文方 
法，表中列出了猜测用的混合 DFA 的状态数目，每 
条规则形成的原始 NFA 的状态数目之和以及 map 
模板的数目.对于 Hybnd - FA ， 则给出了 Head-DFA 
和 Tail - FA 的状态数目. 


表 2 web-misc 规则上的内存需求对比 


方法 

NFA 状态数 

DFA 状态数 

总的状态数目 / 

数量 

猜测-验证 

7952 

763 

8715 

55 

定序猜测-验证 

7952 

715 

8667 

18 

Hybrid-FA 

6714 

29343 

36057 

— 


表 3 backdoor 规则上的内存需求对比 


方法 

NFA 状态数 

DFA 状态数 

总的状态数目 / 

数量 

猜测-验证 

4725 

2993 

7718 

153 

定序猜测-验证 

4725 

2160 

6885 

108 

Hybrid-FA 

2539 

30936 

33475 

— 

表 4 L7 规则上的内存需求对比 

方法 

NFA 状态数 

DFA 状态数 

总的状态数目 t 

数量 

猜测-验证 

1842 

2603 

4445 

89 

定序猜测-验证 

1842 

6244 

8086 

43 

Hybrid-FA 

1091 

8249 

9340 

— 


从表中数据可以得到如下 结论： 

(1) 自动机所占用的空间更多地取决于规则集 
的特性，即连接符的种类和出现频率对整个内存需 
求的影响远远大于规则集中规则数目的影响.例如 
web - misc 的规则数目最少，但是它需要的自动机状 
态数目最多.通过与表1中的数据相比较还可以发 
现，当每条规则单独构建 NFA 时，总的状态数目比 
构建混合 NFA 略大，因为此时各个 NFA 不能共享 
公共前缀. 

(2) 猜测-验证法和 Hybrid - FA 所需要的内存 
要远远低于原始 DFA ， 前两者仅仅相当于后者的 
1 %.同时，在 L 7 规则上，本文方法的内存需求为 
Hybrid - FA 的50 %左右，对于 Snort 规则，前者则 
仅仅相当于后者的25%左右.这是因为 Hybrid-FA 
对规则类型的敏感度要大于本文的方法.它只在特 
定的连接符处才会中断子集构造过程，若连接符出 
现的位置比较靠后，它就不得不扩大确定化的范围， 
从而造成 Head - DFA 比较巨大.而本文则通过灵活 
的 sub _ pattern 提取策略避免了对连接符的处理. 

(3) 如果都是用简单形式的 sub _ pattern ， 那么 
本文的两种方法所形成的 subs _ DFA 的大小相当. 
但由于定序使用的 sub _ pattern 数目较少（只能按 
序选择），所以其对应的 subs _ DFA 状态数目也较 
少.表2和表3中两个 Snort 规则集就属于这种情 
况.但是在某些情况下，由于规则的开头不是简单 
串，因此需要在进行定序猜测中不得不选取部分带 
有连接符的 sub _ pattern ， 此时它将比简单猜测需要 
更多的空间 . L 7 中的规则主要描述协议的格式，因 
此出现了较多此类情况. 

5.2.2 处理速度 

本节中将对 Hybrid - FA 与本文方法的处理速 





度做一下对比.实验中所使用的测试数据由 regex 
的 trace 生成工具产生.这个工具可以为指定的正 
则表达式规则集生成具有一定特性的 trace 数据. 
为了做一个全面的对比，本文选取了 5个不同的参 
数(多 _ s «^ = 0. 1,0. 35,0. 55,0. 75,0. 95) 为3个规 
则集分别生成了一组 trace 数据集.其中 p — seed 表 
示在处理过程中对自动机中深层节点的访问概率， 
声」越大，访问深层节点的概率越大.两种方法 
在相同规则集和 trace 数据集上所得到的实验结果 
如图2所示. 


图2中 （ a ) 〜 （ c ) 分别给出了两种方法在相同规 
则集上处理不同特性 trace 数据时所得到的对比结 
果.而图 （ d ) 则给出了整体的性能对比结果.从图中 
可以看出，在所有的规则集上本文方法的处理速度 
都高于 Hybrid - FA ， 特别是在 web - misc 和 back - 
door 规则集上，性能都提高了一倍左右.这可以归 
结为两个原因： （1) 这两个规则集中的连接符更复 
杂一些，因而 Hybnd - FA 只能选取很短的前缀构建 
head - DFA ， 这就使得它的 tail - NFA 部分被激活得 
更频繁一些. （2) 本文方法构建的 subs _ DFA 的状 
态数目要远远小于 Hybnd - FA 中 head - DFA 的状 
态数目，因此其 cache miss 也更少一些，减少了由于 
访存而带来的时间延迟. 

通过对本文的两种方法结果的对比可以看出， 
在 L 7 和 web - misc 规则集上，猜测-验证与定序猜 
测-验证的处理速度相近，而在 backdoor 规则集上， 
猜测-验证方法的效率则要明显高于定序猜测-验 
证.这是因为在 L 7 和 web - misc 两个规则集中，两 
种方法所选取的 sub _ pattern 数目几乎相同，且大 
部分规则中只取一条.此时二者都会在命中一个 
SU b _ p a ttem 后直接进行验证过程，因此具有相近的 
处理速度.而在 backdoor 规则集中，猜测-验证方法 
则选取了比定序-猜测多将近一倍的 sub _ patt ern 用 
于猜测，因而其调用验证过程的频率相对较少，处理 
速度也更高 

本文的两种方法在 Snort 规则集上的处理速度 
都随着 P _ seed 的增加而略有降低，但在 L 7 规则集 
上本文方法的性能退化相比 Hybrid _ FA 则严重得 
多，同时本文方法在 L 7 规则集上的处理速度也低 
于在 Snort 规则集上的处理速度.这是因为 Snort 
规则集是针对攻击的特征集，而 L 7 规则集是针对 
协议类型的，因此 L 7 规则集中的特征命中频率要 
远远高于 Snort 规则集，其验证过程被调用的频率 
也相应地高一些，从而导致处理的速度较慢.这也表 
明了本文方法在面向网络安全检测的应用上更有 
优势. 

6结束语 

本文首先阐述了正则表达式在网络安全检测中 
的重要性及其匹配所面临的严峻挑战.然后针对网 
络安全检测应用本身的特点以及 DFA 、 NFA 各自 
的特性，提出了基于猜测-验证的匹配方法.这种方 
法首先使用 DFA 对正则表达式中的 sub_pattern 
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(d ) 两种方法的整体性能对比 
图 2 两种方法的处理效率对比 
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进行搜索，完成特征存在性的 猜测； 在猜测到有可能 
匹配某个特征后，再使用 NFA 来完成少量但复杂 
的逻辑关系和距离关系验证.文中还对这种方法进 
行了深人的分析，给出了其性能的估算方法并指出 
了影响其性能的主要因素.这种方法充分地利用了 
安全检测中成功命中的稀疏性，结果表明，本文提出 
的方法可以在大大减小内存需求的情况下，实现大 
规模正则表达式的高速匹配. 

虽然正则表达式具有很强的描述能力，但它毕 
竟不是专门为网络安全设计的，在描述特征时可能 
会放大问题的范围，从而给匹配造成困难.作者的下 
一步方向是设计出更适合表示安全特征的规则，并 
给出高效的匹配算法. 
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Background 

This research mainly focus on defending the various eva¬ 
ding and hiding behaviors in the content filtering and network 
intrusion detection. Regular expressions can describe filtering 
rules more exact，efficient and convenient than traditional 
simple strings. It can integrate different format rules into 
unified format and help implement a universal matching en¬ 
gine in UTM device. However，the strong description capa¬ 
bility also makes the matching of regular expressions faces 
serious challenges. Traditionally, regular expression matc¬ 
hing is based on either DFA or NFA，but both of them have 
an irreconcilable contradiction between memory requirement 
and processing speed，which make them impractical on large- 
scale rule set. Recent years, most researches focus on reduc¬ 
ing the memory requirement of DFAs. However, DFA mem¬ 
ory requirements increase exponentially but DFA memory re¬ 
duction efficiency is linear. Furthermore，some these propos¬ 
als have constraints which limit their applicability. There¬ 
fore » DFA memory reduction techniques cannot resolve mem- 
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ory explosion thoroughly. 

In order to make large-scale regular expressions matc¬ 
hing practical，this paper proposes a matching algorithm 
based on guessing and verification, it takes advantage of the 
high processing efficiency of DFA and compact representation 
of NFA. It first searches special sub patterns of each rule by 
efficient DFA, and checks the result by slower NFA once the 
previous guessing is successful. The result shows that this 
proposal can provide a high throughout as well as a moderate 
memory requirement. 

This research is partly supported by the National High 
Technology Research and Development Program (863 Pro¬ 
gram) of China (grant Nos. 2007AA01Z406 ， 2007AA01Z467 ， 
2007AA01Z442, 2007AA01Z474) ， National Basic Research 
Program ( 973 Program ) of China ( No. 2007CB311101 ) ， 
National Natural Science Foundation of China ( grant 
No. 60903209). 
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Abstract — Short term traffic speed prediction is very important 
in intelligent transportation systems. Neural networks have been 
widely used for traffic speed prediction. However, the classical 
neural network usually lacks satisfactory generalization ability, 
which usually results in an imprecise prediction of traffic speed. 
Regularization is an essential technique to improve the 
generalization ability of neural network. Regularization is 
realized by adding a weight decay function to the energy function 
of the neural network. One of the key problems of the 
regularization technique is how to decide the parameter of the 
weight decay function. In this paper, the Bayesian technique is 
used to optimize these regularization parameters and a Bayesian 
regularized neural network (BRNN) used for traffic speed 
prediction is proposed. The speed prediction model was validated 
by the real-world traffic speeds of the Hangzhou city collected 
from the floating car system. The experimental results show that 
the proposed method is able to improve the generalization ability 
of neural networks, and can achieve better prediction results 
than several traditional prediction models. 

Keywords-intelligent transportation systems; traffic speed 
prediction; neural network; bayesian regularization 

I. Introduction 

With the rapid development of intelligent transportation 
systems (ITS), many traffic data are collected by various types 
of traffic equipments, such as loop detectors, cameras, loop 
detectors, etc. Extensive traffic data collected from these 
equipments make it possible to develop traffic condition 
prediction models. Predicted traffic information in the near 
future can provide traffic authorities traffic control assistance 
and give travelers route guidance information. Therefore, the 
short-term traffic prediction models have become a hotspot in 
ITS in the past decade. 
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Short-term prediction is to predict the traffic condition 
variables, such as flow, speed and travel time in the range of 5 
to 30 minutes in the future. A wide variety of techniques have 
been used to develop traffic condition prediction models. 
These techniques include time series model [l]-[3], K nearest 
neighbors nonparametric model [4], [5], Bayesian network 
theory [6], Kalman filtering algorithm [7], neural network 
based models [8]-[10]. 

Although these models can solve the short-term traffic 
prediction problem to some extent, there are still several 
aspects needed to be further considered. 

1 ) These researches mainly focused on traffic flow or travel 
time prediction problems. Literatures on traffic flow or travel 
time prediction problems are vast. Researches on traffic speed 
prediction are comparatively few, especially the traffic speed 
prediction based on floating car data.. 

2 ) Floating car system based on the traces of GPS positions 
works effectively in gathering real-time traffic information 
[10]. Previous researches mainly used traffic data collected by 
loop detectors to predict traffic status. Researches based on 
data collected from the floating car system are relatively few. 

3 ) In these prediction models, the difference of traffic 
patterns in different days of one week and in different hours of 
one day is often neglected. In fact, traffic pattern varies in 
different days of one week and in different hours in one day. 
Reference [11] divides one week into four groups. The days in 
the same group are considered to have similar traffic patterns. 
But it doesn’t mention the hour-to-hour variation in one day. It 
is hard to build a model that fits a whole day. Traffic patterns in 
rush hours are quite different from the other time of a day. 
Hence in this paper, we consider both the day-to-day variation 
and the hour-to-hour variation of traffic pattern in our 
prediction model. 

Neural network is widely used in various fields because of 
its special characteristics, such as self-learning, nonlinear 
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mapping and parallel distributed manipulation. In traffic speed 
prediction problem, the traffic speed data used to train the 
neural network are not completely clean, especially the speed 
data collected from the floating car system. Noise is inevitable 
when using GPS devices to collect traffic speed. A trained 
neural network which fits the noisy training data well possibly 
fails to generalize new data. This is “overfitting”, which often 
happens when using neural network to predict. The traditional 
neural network always shows poor generalization ability. 
Many researchers have focused on how to improve the 
generalization of neural networks [12], [13]. 

Regularization is an efficient technique to improve the 
generalization capability of neural networks [14]-[16], [20]. It 
is conducted by adding a weight decay function to the energy 
function of the neural network. With the weight decay 
function, the weights are smaller and the output of the neural 
work would be smoother. 

When using these regularization techniques, the main 
problem is to decide how much the weight decay term 
influences the learning algorithm. Reference [12] analyzes 
different weight decay function and different parameter of the 
weight decay function and tests their performance with several 
examples. Reference [16] deals with this problem from a 
multi-objective optimization point of view. Bayesian 
technique is an effective and simple way to solve this problem 
[15], [20]. Reference [19] introduces this technique to deal 
with the problem of travel time prediction. In this paper, a 
Bayesian regularized neural network model (BRNN) is 
employed to solve the traffic speed prediction problem. The 
traffic speed data of the Hangzhou city collected by the 
floating car system are used to validate our method. 

The rest of the paper is organized as follows. In Section II, 
the source data and the traffic speed prediction problem are 
described formally. In Section III, we introduce the BRNN 
model. In Section IV, several models for comparison are 
presented. We explain our experimental procedure and present 
the experimental results in Section V, Section VI concludes this 
paper. 

II. SOURCE DATA AND PROBLEM DESCRIPTION 

In this paper, we focus on the problem of predicting the 
traffic speed of an urban road section. The data are collected 
from the floating car systems of the Hangzhou city. Floating 
car system based on the traces of GPS positions works 
effectively in gathering real-time traffic information. It is 
based on cars with in-vehicle GPS devices (floating cars) 
traveling on a road network [10]. These cars send the traffic 
data they collect during their travel to the data center of the 
floating car system during their travel. The data are then sent 
to different users. The traffic information obtained by floating 
car system can cover a wide range of road network and reflect 
the actual state of the road traffic. Accurate prediction of 
traffic speed can be very useful for both traffic authorities and 
road users. There are two kinds of raw data in the system, 1- 
min interval and 15-min interval. 

There are three kinds of traffic speed data: historical, 


current, and predictive. We use historical data and current data 
to get the predictive data. Suppose the current time is t , and 
the current traffic speed of this road section is v(^). Given the 
historical traffic speed of this road section 
v(t — 1), v(t — 2),• • •, v(t — K) at time t — \ ^ — 2 ，…, t — h . v(t + 1) is 
the future traffic speed to be predicted. We can build a 
prediction model, as (1), by analyzing the historical data set. 

Kt +1) = fiy(t\v(t - 1 )， … v(/ -h)) (1) 

where f (•) is a nonlinear mapping function. 

III. BAYESIAN REGULARIZED NEURAL NETWORK 

Three-layer neural network model has the ability to 
approximate any non-linear function. It is used in diverse 
fields. Nowadays, there are more than 40 types of neural 
networks. Among all these models, Back Propagation (BP) 
neural network is the most widely used kind of neural network. 

BP neural network is a kind of multi-layer feed forward 
neural network. As shown in Figure 1, BP neural network is a 
kind of neural network with 3 layers or more, including input 
layer, middle layer (hidden layer), and output layer. The 
neurons between adjacent layers are completely connected. 
But there is no connect between the neurons in the same layer. 
It is proved that BP neural network can approach any non¬ 
linear function given enough neurons in each layer [15]. 

In the aforementioned problem, the inputs of the neural 
network are the current speed and historical speeds of the target 
road section, v(t),v{t , respectively. The output 
is the traffic speed in the future, v(^ + 1). 


v(t) v(t-J) v(t-h) 



Fig. 1. The structure of the Bayesian regularized neural network used for the 
traffic speed prediction 

In this paper, we used a simple and effective way to 
suppress the effects of noise and improve the generalization 
ability of the neural network. 

Typically, the object of training a neural network is to 
obtain a set of network weights and biases, which minimize 
the error between the real speed and predicted speed. Normal 
objective function is the mean squared error (mse): 
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E D =-T J ( d t - X out,t) ( 2 ) 

n t =\ 

where fZ is the number of training samples, d t represents 
the real speed and x outt is the network output. However, this 

classical objective function can often overfit the training data. 
In the traffic speed prediction problem, the training data are not 
clean. If the network overfits the training data, it would 
perform poorly on the testing data. To improve the 
generalization ability of the neural network and make it 
perform well with new cases, we add a weight decay term to 
the objective function. With this weight decay function, the 
network weights would be smaller, which will improve its 
generalization ability. The new objective function is: 


E = aE^ + /3E d 


( 3 ) 


Where E w is the weight decay function, a,/3 are the 

regularization parameters. It represents the relative importance 
of the weight decay term. If a « J3 9 the network training 
emphasizes reducing the error. If a» J3 , the training 
emphasizes weights reduction, which would lead to a smooth 
network output. There are many types of weight decay term. 
In [14], Xu et al. presented four kinds of weight decay term 
and analyzed their effectiveness in different fields. In our 
research, the most popular quadratic weight decay function is 
used: 

五，去 ( 4 ) 


where [•])■ means the jth component of the vector and N is 

the number of all the weights of the network. 

The optimal regularization parameters can be 

determined by the Bayesian technique. In Bayesian theory, the 
weights of the network can be considered as random variable. 
Given the data set, a and J3, the posterior probability is: 

P(/)|w ， AM)xP(w|a,M) (5) 


P(^\D ， oc ， /5 ， MV- 


P(D\aJ,M) 


where D represents the data set, M is the particular neural 
network model used, P(D\w,j3,M) is the likelihood function, 
P(w |a,M) is the prior density, and P(D\a,j3,M) is the 


normalization factor which ensures the total probability is 1. 

If the data and the weights are both Gaussian, then the 
probability densities can be written as: 

P(D\ = {7Tipy nl2 exp(-^) (6) 


尸 (w I a,M) = (tt/ a)~ N 12 Qxp(-aE w ) 


Substitute (6) and (7) into (5), we get 


P(w\D,a,j3,M) = 


(jrlpr l2 (7rlar NI2 exp(-(^ w +pE D )) 
P(D\aJ,M) 


⑺ 


⑻ 


= Z F (a,j3)Qxp(-E(w)) 

In Bayesian theory, maximizing the posterior probability is 
equivalent to minimizing the regularized objective 
function £ ： (w) . Then the regularization parameters can be 


optimized by using Bayesian rules: 


P(a,/3\D,M) = 


P(D\a ， l3,M)P(a,/3\M) 


⑼ 


P(D I M) 

Maximizing the posterior can be achieved by 
maximizing P 〈 D\oc, /3, M), which is the normalization factor 
in (5). 

P{D\v,,p,M)P(v/\a,M) 


P{D\a,P,M)- 


P(w\D,aJ,M) 


(k! p)~ nn Qy^{~PE D ){7rla)~ N ' 2 exp(-^ w ) 


( 10 ) 


Z F (a, 々） 


exp(-E(w)) 


(7r/j3) n/2 (7r/a) N,2 

Estimate Z f (a,j3) by Taylor series expansion. 

Z F « (2^) Ar/2 (det((H wp )- 1 )) 1/2 exp(-E(w MP )) (11) 
where H = aV 2 E w + /JV 2 E D is the Hessian Matrix of the 
objective function. Substitute this to (10), we can get the 
optimal values for a and p at the minimum point by taking 
the derivative with respect to each of the log of (10). During 
the process, the Hessian matrix needs to be computed. The 
Hessian matrix can be computed by the Gauss Newton 
approximation, the same as the Levenberg-Marquardt (LM) 
algorithm. Then we obtain: 


，广 : 


-7 


( 12 ) 


叫，） 厂 2圮(，） 

where /= N-2atr(U MP )~ l is called the number of effective 


parameter numbers. It is between 0 and N . For more details 
about the Bayesian regularization, see [15]. 

Here are the steps of the BRNN learning algorithm: 

1) Initialize a, /3 , and the weights randomly. 

2) Update the weights as follows: 

w(k +1) = w(A：)- [2/^J T k J k + 2alT l g k (13) 

where I is an NxN identity matrix, J is the Jacobian 

matrix[18], £ _ [ 9^(w)3£'(w) 9g(w) ]7 

dw 2 dw N 

3) Compute and p. 

4) Iterate the steps 2) and 3) until the training goal is 
reached. 


IV. Comparative models 

To evaluate the usefulness of the BRNN model, some 
common prediction methods are employed for results 
comparison. Four models are described in the follow. 

A. Traditional neural network (NN) model 

In order to show the effectiveness of the Bayesian 
regularized neural network, a common neural network is used 
for traffic speed prediction problem. Levenberg-Marquardt 
learning algorithm is used. 
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B. K nearest neighbors nonparametric regression (KNNNR) 
model 

KNNNR model is widely used in traffic prediction field. 
Denote a state vector of traffic speed as: 

x{t) = [v(0,v(^ -1) ， … ， v(> - ； 0] (14) 

Compute the Euclidean distance between the new state 
space with the historical state spaces to fine k nearest 
neighbors. Then the predicted speed can be computed as 
follows: 

v,ft + l) zy _ L _ (15) 

Dist t 七 Dist i 

where Dist t means the Euclidean distance between the new 

state space with the ith nearest neighbor. For more 
information about KNNNR, see [4], [5]. 


^+i)=Z 


C. Weighted Moving average (WMA) model 
A moving average model of order k is computed as: 

i{t + l) = ^t) + v{t-\) + - + v{t-h) (16) 

h + l 

Considering that the speed on the time interval nearer to the 
time interval f +1 is more correlated with the traffic speed at 
time interval ^ + 1, a weighted moving average was employed 
here: 

(,( n 1) = a o v (,) + -!) + ••• + cc h v{t-h) (17) 

OCq + +'' • oc h 

where a^a v -',a h are parameters to be decided.. 


D. Auto Regression (AR) model 

We can get the predictive value as follows by AR model: 
v(t + 1) = gTqv(^) + oc^v{t — ]_) + ••• + oc h v{t — h) + £ (18) 

where ^ is a zero mean random variable, are the 

parameters to be estimated by the least square method. 

V. Experiment procedure and results 


experiment. 7 days’ data were used to build the model and 3 
days’ data were used to test the accuracy. 

As mention in Section II, there are two types of data in the 
floating car system, i.e. 1-min interval data and 15-min 
interval data. 1-min interval data were chosen because we 
focused on short-term traffic speed prediction. The 1-min 
interval data were aggregated and averaged into 5-min period 
as follows: 





(19) 


where m is 5 in this paper. 

The data were normalized to a value between 0 and 1. 
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B. Error Measurements 

Mean absolute error(MAE) and mean squared error (MSE) 
are applied to assess the accuracy of prediction. 

臟 e = ^2|X Rea ,(K(，）| (20) 

num t=l 

i num 2 

= — £[X Re „(0-X F (0] (21) 

num t= i 

where X Real represents the real speed, X F is the predicted 
output, and num denotes the number of test samples. 


A. Data Preparation 

The floating car system of the Hangzhou city covers most of 
the urban area. We will use the label in the system to denote a 
specific road section. The northbound speed of Road No.540 
(see Figure 2) was chosen. A data set from May 20, 2007 to 
June 20, 2005 was collected. Reference [11] mentions day-to- 
day variation in one week. Besides, hour-to-hour variation in 
one day was also considered in our research. According to 
[11], the days during one week can be divided into four 
groups: G1 (Monday), G2 (Tuesday, Wednesday and 
Thursday), G3 (Friday), and G4 (Saturday and Sunday). In 
order to eliminate hour-to-hour variation, data in morning 
peak (7o’clock to 9o’ clock) was chosen. Hence in our 
research, data in morning peak on days of the G3 group were 
chosen to validate our model. Some data in the floating car 
system were lost, so we finally had 10 days, data to carry out 


C. Traffic Speed Prediction Model Based on BRNN 

In this paper, the h in (1) was chosen as 2. That means, we 
used the traffic speeds at 3 successive previous time interval to 
predict the traffic speed at t+1 interval. A three-layer neural 
network was built, with 3 neurons in the input layer, 12 
neurons in the hidden layer, and 1 neuron in the output layer. 
The number of neurons in the hidden layer is an important 
feature of the network, which was chosen by many 
experiments. The transmission function in the hidden layer 
was hyperbolic tangent S type (tansig) function. The 
transmission function in the output layer was the logarithm S 
type (logsig) function. The inputs were v(^), v(r-l), v{t - 2) 
of the target road section, and the output was v(^ + l) • The 
training goal was set as 0.01. Different initial weights and 
biases of neural network would lead to different results. The 
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Sample ID 

Fig. 7. The Results Obtained by AR model 


The mae and mse of all the five models are shown in 
TABLE I. 


E. Experimental results and analysis 

Among the 10 days’ data, 7days’ data were used to build the 
model and the left were used for test the accuracy. Figure 3, 
Figure 4, Figure 5, Figure 6, and Figure 7 show the predicted 
speed and observed speed obtain by the aforementioned five 
models. 



Sample ID 

Fig. 6. The Results Obtained by WMA model 


initial weights and biases are random in our study. The BRNN 
learning algorithm was used to train the neural network for 10 
times with different initial weights and biases and the best one 
among them was chosen. 

D. Traffic Speed Prediction Models Based on comparative 
models 

As for the NN model, the parameters of it were the same as 
the parameters of the BRNN model. Hence, the only 
difference between them was the training algorithm. The LM 
learning algorithm was also used to train the neural network 
for 10 times and the best one was chosen. 

In the KNNNR model, the only parameter need to be 
decided is the number of neighbors, k. If the neighbors are too 
few, the output would fluctuate fiercely. With the increase of 
the number of neighbors, the output gets smoother. However, 
the accuracy would reduce when the number of neighbors 
exceeds a certain value and the output would be almost a fixed 
value. 10 is the most suitable value for this case obtained by 
many experiments. 

In the WMA model, we need to design the weights. Because 
v(0 is more correlated to v(t + 1) than v (，一 1) and v (，- 2), and 
v( ， -l) is more correlated to v{t + 1) than v(t-2) • So the 
weights a^,a v a 2 were assigned 2, 0.75, and 0.25, 

respectively. This WMA model outperforms the MA model. 

In the AR model, the parameters were estimated by the least 
square method. During our experiment, a 0 ,a l9 a 2 are 0.6145, 
0.1847, and 0.1291, respectively. 



Fig. 4. The Results Obtained by NN model 



Fig. 5. The Results Obtained by KNNNR model 




Sample ID 

Fig. 3. The Results Obtained by BRNN model 
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TABLE I 

_MAE AND MSE OF DIFFERENT MODELS_ 

BRNN NN KNNNR WMA AR ~ ： 

MAE 10.1446 13.8975 10.7519 11.3534 10.9504 

MSE 145.0001 293.7279 169.7859 200.7054 190.5897 


As shown in Figure 3, the predicted speeds obtained by BRNN 
model are near to the real speeds, and this method leads to the 
smallest mae and mse according to TABLE I. In Figure 5, it is 
clear that KNNNR model’s results are smooth, without too 
large values or too small values. This is related to the number 
of neighbors we choose. KNNNR model leads to the second 
smallest mae and mse. From Figure 6 and Figure 7, we can see 
that the speeds of WMA model and AR model have similar 
trends with the real speed. But there is an obvious time delay 
existing. AR model’s results are slightly better than the results 
obtained by WMA model. In Figure 4, we can see that the 
output of the NN model fluctuates fiercely and it leads to the 
worst prediction accuracy. It is obvious that it overfits the 
training data and it performs badly in the test sample. 
Compared with it, the BRNN model performs well on the 
testing data. From this, we can clearly see that the Bayesian 
regularization improves the generalization ability of neural 
network significantly, and it is very effective for traffic speed 
prediction problem. 

VI. Conclusion 

Traffic condition prediction has become a hotspot in ITS. 
Accurate traffic condition prediction is very useful for traffic 
authorities and common road users. In the existing researches, 
there are many researches on traffic flow and travel time 
prediction, but the researches on traffic speed prediction based 
on the data gathered by the GPS devices are relatively few. 

In this paper, a BRNN model is proposed to solve the 
problem of the traffic speed prediction problem. The neural 
network approach is applied because of its special 
characteristics. However, neural network often suffers from 
the “overfitting” phenomenon, especially when the traffic 
speed data are not completely clean. In order to reduce the 
effects of noise and improve the generalization ability of the 
neural network, a weight decay term is added to the energy 
function of the neural network and the Bayesian technique is 
used to determine the optimal regularization parameters. The 
floating car data of the Hangzhou city are used to validate our 
model. The experimental results show that the BRNN model 
outperforms the common neural network model and several 
other common prediction models. 

From the analysis of the experiment results, we can see that 
different models have different characteristics. In the future 
research, we will focus on if a hybrid model would help 
improve the prediction accuracy. 
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基于网络拓扑的网络安全事件宏观预警与响应分析技术 

李英楠，张宏莉，云晓春，方滨兴 
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摘要： 蠕虫等大规模爆发的网络安全事件的发生对 Internet 安全构成了巨大威胁。如何及早发现并有效控制类似事 
件的发生发展，已成为目前国内外网络安全专家们的研究热点之一。本着主动测量和异常检测相结合的思路，本文设计实现了 
大规模网络安全事件协作预警系统，重点探讨了基于聚类算法的宏观预警分析、控制点选择、控制建议生成等关键技术，经可 
视化处理，取得了较好应用效果。本文的工作成果将为计算机网络应急处理工作人员提供直接决策依据。 

关 键词： 网络安全检测与响应网络拓扑聚类分析计算机应急响应技术 

1引言 

蠕虫等大规模爆发的网络安全事件的发生对 Internet 安全构成了巨大威胁。2001年以来发生的 Code Red 、 
Nimda 、 Slammer 、 Blaster 等蠕虫足以证明这一点，人们对此造成的损害仍然记忆犹新：网络拥塞、网站瘫痪，整 
个 Internet 几乎不可访问。据统计，仅 Code Red 在全球造成的损失就超过26亿美元。同时，也唤起了研究者对此 
类问题的密切关注，如何及早发现并有效控制蠕虫等网络安全事件的蔓延，已成为目前国内外网络安全专家的研 
究目标。 

在此背景下，本文本着主动测量和异常检测相结合的思路，设计实现了大规模网络安全事件协作预警系统， 
旨在对大范围爆发的网络事件进行宏观预警，并提出控制建议。全文组织 如下： 第二部分介绍系统的结构 设计； 
第三部分详细阐述其中的关键技术，包括基于聚类算法的宏观预警分析技术、控制点选择技术、控制建议生成技 
术； 第四部分介绍相关 工作； 最后，总结全文。 

2协作预警系统整体结构设计 

系统由四部分 构成： 网络安全事件检测子系统、拓扑发现子系统、综合分析子系统、可视化显示子系统，系 
统结构如图1所示。 


报警信息 报警信息 



图1协作预警系统结构 H 


各自功能 如下： 

网络安全事件检测点，分布放置于多个网络出入 U , 负责检测本地网络的兄常事件，并将引发相 关的主 机地 
址、事件类型、严重程度等报警信息发送至综合分析子系统，同时写入数据库。 ^ 

拓扑发现子系统，负责对全局范围内的网络进行拓扑信息收集，并生成路由 ip 级的网络拓扑连结关系图，该 
过程应保证低负荷、无入侵性、图生成的高效性。最后，将网络拓扑信息发送至综合分析子系统、可视化子系统 [1|】 。 
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综合分析子系统，汇总同一时间段内所有检测点上报的报警信息，然后将所有报警信息分类，接着调用各类 
报警的分析引擎，进行分析处理，最后将分析结果发送至可视化子系统。以蠕虫为例，首先找出网络事件受害主 
机地址对应的子网信息，然后对网络事件的宏观分布状况进行聚类分析，并根据分布密度、危害程度等给出警告 
级别，最后基于网络拓扑提岀异常事件控制 建议： 在哪控制，如何控制。本文将于第三部分详细阐述其中的主要 
分析技术。 

可视化显示子系统，基于网络拓扑信息和网络事件综合分析结果，显示各级网络拓扑图、网络事件宏观分布 
图、控制点分布图等，以便与网络管理者进行决策。 

3关键技术 

本文主要采用基于密度的聚类算法 [| ， 2 , 3] 分析安全事件在网络拓扑上的分布 状况； 采用基于 k - 中心点 [3] 的方法分 
析实施控制的关键路由器，旨在提出基于网络拓扑的异常事件的控制建议。 

3.1 基于聚类的宏观预瞥分析技术 

综合分析子系统除了要将所有的报警信息完整地反馈给管理员以外，还需要分析这些报警信息所反映的 
异常状态在拓扑图上的分布情况，即异常路由器的集中区域，以此帮助管理员更加清楚地认识异常的扩散情况并 
找到最适合的控制方法。 

3.1.1 名词定义 

定义1密度 聚类： 将簇看作是数据空间中被低密度区域分割开的高密度区域， DBSCAN 11 ’ 31 和 OPTICS [2 ’ 3] 是其 
代表算法。 

定义2路由器间 距离： Dist ^,_/) = 路由器 i 和 j 之间的跳数 

定义3路由器 划分： 对路由器集合 V ，称满足下面两个条件的子集集合为路由器划分 

a . V = V X uK 2 u AuF „ 

b . V /, ye [ l ，4^ =<D 

定义 4 路由器密度 划分： 采用密度聚类算法得到的路由器划分。 

3.1.2 算法描述 

结合上述定义，给出按密度划分路由器集合的算法 
FIRSTCLUSTER ： 第一个族的编号，以后逐个递增1 
UNCLASSIFIED ： 标识路由器未处于任何簇 
RouteSet ： 路由器集合 

ExpandCluster ( route , RouteSet , Clusterld )： 根据路由器间距离从 RouteSet 中发现和 route 处于同一个簇的所有 
路由器，并用 Clusterld 标识。 

Begin 

Clusterld = FIRSTCLUSTER 
for each route in RouteSet 

if route is UNCLASSIFIED then 
ExpandCluster ( route , RouteSet , Clusterld ); 

Cluserld ++; 

End if 
End for 
End 

以教育网拓扑信息为背景，应用上述算法，图2给出应用效果。图2中每个节点代表一个路由器，它们之间 
的连线代表路由器间的连接关系。黑色节点和灰色节点都代表异常路由器，根据集中区域的不同，为它们分配了 
不同的颜色。 
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图 2 :基于聚类的宏观预螫分析技术的应用效果图 

3.2 控制点选择技术 

控制点选择技术的目的是为管理员提供一种限制异常扩散的手段。该技术利用拓扑信息，选取和异常路 
由器相关的控制路由器。根据选取策略的不同，分为精简控制路由器集合和关键路由器集合，前者由所有和异常 
路由器直接相连的路由器组成，后者由对网络传输影响最大的路由器组成，这两种路由器集合都可以限制异常扩 
散，只是前者更注重准确性，后者更注重效率，分别解释 如下： 

第 一种： 求精简控制路由器集合，只要控制该集合则可以限制异常的进一步传输。 

定义1异常主机和异常主机 集合： 异常主机 h 指已经被感染而且正在感染他人的主机，用表示。 
异常主机集合 AHS = {h | SickH ( K )}。 

定义2路由器 网关： 主机 h 的路由器网关是路由器 r 当且仅当 r 是 h 接入 Internet 的第一跳路由器，用 
r = RouteGate ( h ) 表示。 

定义3异常路由器和异常路由器 集合： 异常路由器指任意路由器 r ， r 是异常路由器当且仅当存在主机 h ， 
SickH ( h ) 而且 r = RoiaeGate ( h ) ,用汾 表示。异常路由器集合 = {r | 5 VcM ( r )} 。 

定义 4 相邻路由器 •• 路由器 rl 和 r 2 相邻当且仅当 rl 和 r 2 直接相连， 用 Adj ' oMng ( rl ， r 2) 表示。 

定义5控制路由器集合和精简控制路由器 集合： 控制路由器集合 
CRS = { r ) 3 r t , SickR ( r \\ Adjoining ( r 9 rl )} 0 精简控制路由器集合 RCRS = {r | r e CRS，r 在 ARS } 0 

结合上述定义，给出发现精简控制路由器集合的算法 

Begin 

for each host in AHS 
find route , route = RouteGate ( host ) 
push route into ARS 
End for 

for each route in ARS 

find all ad which Adjoining ( ad , route ) 
push ad into CRS 
End for 

for each route in CRS 
if route not in ARS then 
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push route into RCRS 
End if 
End for 


End 

同样以教育网拓扑信息为背景，应用上述算法，图3给出应用效果。黑色节点代表异常路由器，灰色节点代 
表控制路由器，很显然只要在灰色节点上限制黑色节点的访问，就可以限制异常的传播。 







图3:精简控制路由器算法的应用效果图 

第 二种： 发现关键路由器。根据网络拓扑的特点，分析拓扑图，找到对网络传输影响最大的路由器集合。当 
事态比较严重的时候可以先控制这些路由器，然后再逐一处理异常路由器。 

定义 1 拓 扑图 ： T = ( V , E ), V 代表路由器的集合， E 代表路由器之间物理连接的集合。 

定义2路由器划分 S 的评估 公式： f ( n , e , s ) :, n 表示一个路由器划分的子集个数， 

e v = {(/ w ,«)| Vwe e Sj ,( m , n ) eE \ , e = ^ y yi,je [1,«]>/〉_/}，5 = \ S t \,\/i e [1，《]}。 

定义 3 路由器最优 划分： 使评估公式的值最小的路由器划分称为路由器最优划分。具体地说就是满足下面四 
点： 

a. 子集的大小不能太大 

b. 子集的数目尽可能小 

c. 子集之间的边尽可能少 

d. 子集的大小尽可能平均分配 

结合上述定义，给出发现路由器最优划分的近似算法，进而得到关键路由器。具体做法是通过聚类的方法找出 
拓扑图的高密度区域，作为一个近似路由器最优划分，然后得到联系各个高密度区域的路由器，即关键路由器。 
这里采用路由器之间的跳数作为判断路由器之间距离的依据。 

Begin 

divide routes into different parts 
for each edge in E 

if edge’s vertexes are in different partitions then 
regard both vertexes as critical routes 
End if 
End for 
End 

同样以教育网拓扑信息为背景，应用上述算法，图4给出应用效果。黑色节点代表关键路由器（根据算法教 
育网总共有55个关键路由器，为了明显起见只标识其中6个），很显然关键路由器对网络整体的连通性影响很大。 
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图4:关键路由器算法的应用效果图 

3.3 控制策略生成技术 

路由器具有 A CCeSS Li S t [4] 功能，用以拒绝某些 IP 的通过。例如当需要在路由器上禁止己经被感染的机器 
192.168.0.10 发送有害信息的化，只需要执行下述 命令： 
access-list 100 deny ip 192.168.0.10 255.255.255.255 any 

在 IP 很多的情况下，为每个 IP 执行一次该命令管理员的负荷很大，因为 AccessList 支持网络地址的功能，因 
此可以将同一个网段的 IP 聚合起来，用一条命令完成对这些 IP 的禁止，例如，下面的命令就可以禁止网络地址 
192.168.0.0 网络掩码 255.255.255.0 的256个主机通过路由器。 

access-list 100 deny ip 192.168.0.0 255.255.255.0 any 
3.3. 1 名词定义 

定义1待聚合主机 集合： 控制策略生成技术的操作对象，用 HS 表示 

定义2掩码 长度： 网络掩码二进制表示的1的最大个数。网络掩码二进制不存在1位于0后面的情况。 

定义3网段 大小： 2的32减去网段掩码长度次幂 

定义4网段实际 大小： HS 中属于该网段的主机个数 

定义5网段合并 探测： 如果满足下面三个条件则称网段可以合并 

a . 两个网段掩码长度相同，记为 k 

b . 设两个网段地址分别为 netl , net 2, 要求 CCnetl XORnet 2) » (32- k )) Equal 1 

c . 两个网段的实际大小之和大于阀值 

定义6网段 合并： 两个网段地址分别为 netl , net 2, 掩码长度 k , 合并结果网段地址为 net = netl AND NOT(l 
«(32- k )), 该网段掩码长度为 k -1。 

3. 3.2 算法描述 

结合上述定义，提出控制策略生成技术，分三个阶段 完成： 

阶 段一： 设定初始网段大小为256,利用哈希函数将主机地址映射到网络地址，并统计映射到每个网段的主 
机数目。哈希函数 f 为： （•主机地址 AND 255.255.255.0) MOD 哈希表大小。 

阶 段二： 设定数组 C [25]， C [ i ] 代表首先将阶段一中哈希表的所有项加入到 C [24] 所代表的 

1 32-1 

链表中，然后网段合并探测，如果可以则执行网段合并，比如说将 1.1.3.0/24 和 1.1.2.0/24 合并为1.1.2.0/23，依此 
类推直至无法合并 ( C [0] 会成为一个边界)。 

阶 段三： 由 C [0] 开始输出所有的合并结果，当处理到 C [24] 时注意将达不到阀值要求的网段的主机地址输出, 
而不是网络地址。 

算法 如下： 

HostSet ： 待聚合主机集合 

f ： 哈希函数，用于映射主机地址到网络地址 
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NetHash ： 用以暂存映射的网络地址的哈希表~ 

INITMASKLEN ： 初始掩码长度，初始网段大小为 2 m TMASKLEN 。 

CanMerge ： 表示网段合并测试 
Merge ： 表示网段合并 
Begin 

insert each host in HostSet into NetHash using hash function f 
attach each net in NetHash on C [ INITMASKLEN ] 
for i from INITMASKLEN to 1 
for each netl , net 2 in C [ i ] 

if CanMerge ( netl , net 2) then 
net = Merge ( netl , net 2) 
delete netl , net 2 
attach net on C [ i -1] 

End if 
End for 
End for 

for i from 0 to INITMASKLEN 
print each net in C [ i ] 

End for 
End 

该技术以损害部分 ip 地址的正常访问为前提，提高在危急时刻管理员的反应速度。当然在条件允许的情 
况下管理员可以一条条输入有害 ip 地址，以保证正常 ip 地址的访问。 

4相关工作 

以簇为单位划分图的方法不但在理论上有详细的证明而且在动态路由协议和拓扑发现方面都体现出它的 
价值 [7 ^0 ] 。文献 [7] 针对无线网络提出一种基于簇的的路由协议，该协议的基本思想是将拓扑图分割成互相重叠 
的族集合.然后选出联系各个簇的边界主机，使用最短路径算法完成路由表的构造，可以通过边界主机对各自所 
属簇的广播完成路由表的升级。同样针对无线网文献 [8] 利用无线网是一个广播通讯媒介的事实，利用一种染色算 
法将拓扑图分割成不同的族，并从中发现主机集合作为通讯渠道，从而有效地分发和汇集消息。文献 [9] 认为现有 
的以自治域为单位的拓扑图太简单而用路由器为单位的拓扑图太复杂，提出以簇为单位描述网络拓扑，后者的复 
杂程度介于前两者之间。文献 [10] 提出用簇的方式分析站点的日志信息，发现不同用户群，帮助 ISP 管理者完成对 
代理服务器的布置，而且可以发现恶意访问者和恶意代理。 

目前，尚未有基于网络拓扑的异常事件预警与响应分析等工作见诸报道。 



5结论 

本文主要针对蠕虫等大规模爆发的网络安全事件，探讨如何及早发现并有效控制类似事件的发生发展的问题， 
解决了协作预警系统中的宏观预警分析、控制点选择、控制建议生成等关键技术。实验数据表明，其分析结果可 
辅助工作人员掌握网络事件的发生状况，并及时采取有效的响应措施，将在计算机网络应急响应工作中发挥积极 
作用。 
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Abstract Anonymous communication technique is one of the main privacy-preserving techniques, 
which has been widely used to protect Internet users’ privacy. However, existing anonymous 
communication systems are particularly vulnerable to traffic analysis, and researchers have been 
improving unobservability of systems against Internet censorship and surveillance. However, how to 
quantify the degree of unobservability is a key challenge in anonymous communication systems. We 
model anonymous communication systems as an alternating turing machine，and analyze adversaries’ 
threat model. Based on this model, this paper proposes a relative entropy approach that allows to 
quantify the degree of unobservability for anonymous communication systems. The degree of 
unobservability is based on the probabilities of the observed flow patterns by attackers. We also apply 
this approach to measure the pluggable transports of TOR，and show how to calculate it for comparing 
the level of unobservability of these systems. The experimental results show that it is useful to 
evaluate the level of unobservability of anonymous communication systems. Finally, we present the 
conclusion and discuss future work on measuring unobservability in anonymous communication 
systems. 

Key words anonymous communications； relative entropy； unobservablity； privacy protection； traffic 
analysis 


摘要匿名通信技术作为一种主要的隐私增强技术被广泛应用于互联网的各个方面，然而传统的匿名 
通信系统很容易被监视、检测.因此，国内外研究者一直致力于改进匿名通信系统的不可观测属性，以防 
范网络审查和监视.然而，如何量化评估这些协议的不可观测程度则几乎没有相关的研究.针对匿名通 
信系统提出一种基于相对熵的不可观测性度量方法，该方法从敌手的威胁模型出发，将匿名通信系统的 
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输入、输出状态映射到一个交互式图灵机，并在此基础之上提出一个基于相对熵的不可观测性度量框 
架，该框架能够有效地度量匿名通信系统的不可观测程度.此外，将它应用于 T () R 匿名通信系统的传 
输层插件的度量，实验结果表明，该方法能够有效地度量匿名通信系统的不可观测性. 

关键词 匿名 通信； 相 对熵； 不可观 测性； 隐私 保护； 流分析 


中图法分类号 TP 393. 08 

随着互联网技术的发展，网络已经深人到人们 
生活的各个方面，如电子投票、电子支付、电子邮件 
甚至网页浏览等.匿名通信技术作为一种主要的隐 
私增强技术被广泛应用于互联网的各个方面，现有 
的匿名通信系统是利用 Mix 网络和洋葱路由技术 
隐藏通信过程中通信主体的身份信息以及通信双方 
的通信关系，从而为在线用户提供隐私保护.然而， 
随着网络流量分析技术的发展，攻击者不仅可以检 
测到匿名通信系统的流量指纹特征，还能够更进一 
步监视匿名网络，从而破解其匿名性、甚至可以阻断 
互联网用户跟匿名通信系统的连接，如“棱镜”计划 
显示美国政府部门（位于 Utah 的 NSA 情报中心） 
已经针对 TOR (the onion router) 等匿名网络开展 
大规模的信息收集工作 [1] . 因此，匿名通信技术虽然 
能够保证通信主体的不可追踪性和通信客体的私密 
性，但是，不能掩盖通信主体正在使用该技术这一事 
实，即对于敌手来说可以检测到该用户正在使用匿 
名通信系统进行通信. 

在这种背景下，国内外研究者开始在匿名通信 
系统的基础之上研究通信协议的不可观测性，即通 
过协议伪装、流量模糊化、接人点隐藏和区分发布等 
方式消除匿名通信系统的通信行为和流量特征，以 
抵御深度流分析、扫描攻击、女巫攻击等，从而增强 
系统的匿名性和不可检测性. 

已经有很多文献 [ 25 ] 提出了匿名支持隐蔽的通 
信方法，文献 [2-4] 提出协议伪装和流量模糊化方 
法，协议伪装主要思想是模仿或者伪装流行的掩体 
协议，以逃避网络审查，类似于协议层面的“傍大 
款”.文献 [5] 通过运行真实的目标协议，并将目标协 
议承载到流行的掩体协议（如 VOIP ， P2P ， UGC 等） 
之上，以实现通信行为的不可观测性.据网上公开的 
文献调研，现有的匿名通信系统的不可观测属性度 
量和评估目前还没有相关的研究工作.因此，如何度 
量和评估这些协议的不可观测性对于指导未来系统 
的设计、评价通信协议的不可观测程度都是一件非 
常重要的工作. 

本文将从敌手的威胁模型出发，将通信系统的 


输人输出状态映射到一个交互式图灵机，并在此之 
上提出一个基于相对熵的不可观测性度量框架.我 
们的方法可以量化评估协议的不可观测程度，如协 
议的可观测方面在多大程度上可以被攻击者检测出. 

1 相关工作 

在过去的 30 多年里，自从 Chaum [6] 于 1981 年 
首先提出 Mix (消息混合 ） 技术和匿名通信的概念以 
来， Internet 上的匿名通信技术研究越来越吸引人们 
的注意，无论是学术界还是一般公众.与此同时，研究 
机构也一直致力于设计、评估、分析和改进匿名通信 
系统.目前，实用的匿名通信系统主要有 TOR [7] , 
JAP™ 等，并在实际的网络环境中部署、运行.但是， 
匿名通信系统在设计之初并没有很好地考虑到抗审 
查的应用需求，因此匿名通信协议本身很容易被检 
测，从而攻击者可以监视互联网用户正在使用匿名 
通信工具，甚至可以阻断用户跟匿名网络的连接. 

Pfitzmann 等人 [9] 在匿名与隐私相关术语定义 
的文献中提出不可观测性，并给出了定义.在现有的 
各种文献中，通常将互联网上不可观测的通信系统 
解释为满足匿名和不可检测的通信系统.此后，国内 
外的研究者提出了各种不可观测的通信系统 [2 . 
Houmansadr 等人在文献 [10] 中对协议伪装和模仿 
给出了详细的评测和分析，认为模仿和伪装是非常 
困难的，需要正确实现协议的具体规范以及协议内 
部和协议之间的依赖关系. Geddes 等人在文献 [11] 
中指出，即便在流行的协议基础之上嵌人隐蔽隧道 
如 Freeware 也会引起各种问题（如架构不匹配、信 
道不匹配、传输内容不匹配等）.但是这些论文都没 
有对不可观测程度给出可比较的量化评估方法.目 
前匿名通信系统不可观测性的度量却尚未引起足够 
的重视，几乎没有相关的研究工作.而匿名通信系统 
的匿名性度量相关研究工作却不少，下面将阐述匿 
名通信系统匿名性度量相关的一些研究工作. 

Reiter 等人 [12] 提出用 lj 表示匿名度，其中户 
是攻击者能够从匿名集中识别出某一特别用户的概 
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率，它可用于衡量同一匿名集合中不同对象之间的 
可识别的程度. Berthold 等人在文献 [13] 中提出了 
基于匿名集大小的匿名性度量方法，即定义匿名度 
J = lbN ， 其中 N 为系统匿名集合中对象的 个数； 然 
而在这一定义下，匿名度的度量只考虑了系统的用 
户数，而没有考虑攻击者通过一段时间的攻击后能 
够区分出的用户数，因此这种方法无法刻画攻击者 
对于匿名通信系统攻击后的匿名性变化. D iaz 等 
人 [ u ] 提出基于香农熵的匿名性评估框架.该方法的 
优点是不仅仅考虑匿名集大小，还考虑了攻击者对 
于匿名集合中不同成员之间的可识别状态的概率分 
布情况，因此能够更好地度量攻击者在获取到相关 
信息之后，匿名通信系统不同成员的匿名程度. 

Hamel 等人 Us] 认为基于熵的匿名性度量存在 
诸多缺陷，从而关注于研究敌手的攻击行为如何影 
响匿名性.将敌手的攻击能力等价于能够控制匿名 
网络带宽资源的多少，然后给每一个敌手赋予一定 
的带宽预算，探讨在一定的带宽资源下对匿名性攻 
击的影响，从而评估匿名通信系统的匿名度. 

2 问题陈述和定义 

2.1 问题陈述 

越来越多的用户采用匿名通信技术逃避网络审 
查，匿名通信技术能够保护通信双方的通信内容安 
全性以及通信主体的身份信息，但是不能够隐藏用 
户正在使用该技术的事实，也就是说，攻击者可以很 
容易识别出某一用户正在使用匿名通信工具.此外， 
现代的匿名通信技术同样也不能够消除网络数据包 
的外显行为特征，如数据包的大小分布、网络时延、 
数据包的内部间隔时间等，这些看似无用的协议指 
纹特征，实际上对于具有流分析攻击能力的敌手来 
说可以有效地识别网络用户的身份信息. 

针对流分析攻击方法，比较常见的对抗手段是 
协议伪装，即伪装和模仿某一流行协议的具体实现， 
用以混淆协议的外显行为特征，如 SkypeMorph ™ 
将 TOR 的流量伪装成 Skype 视频流量， StegoTorus [3] 
将 TOR 的流量伪装成 Skype 和 HTTP 的流量， 
Cen S orSpoofe r [4] 模仿基于 SIP 的 VOIP 协议.实际 
上 TOR 为了对抗流分析，先后部署了 obfs [16] ， fte [17] ， 
Meek [18J 等传输层插件以支持协议混淆和协议伪 
装.因此度量这些协议的不可观测程度，对于评估协 
议的隐蔽性、指导未来协议的设计与实现都具有十 
分重要的意义. 


低时延匿名通信系统的可用性问题本质上依 
赖于其通信协议的不可观测程度，本文关注匿名通 
信系统不可观测属性的度量和评估，不可观测性从 
用户的通信行为来说是一个计算上的谜题，即攻击 
者在统计上不能够确认或者区分某一用户是否在使 
用某一特别的协议.因此，如何去度量匿名通信协议 
的不可观测程度是一项非常具有挑战性工作.本文 
将形式化定义匿名通信系统的模型，研究在该模型 
下匿名通信协议与所伪装的协议在通信行为上是否 
具有统计意义上的可区分性，即计算通信过程中数 
据包的外显行为特征的相对熵值，以度量其可观测 
程度. 

2.2 相关概念定义 

在本节，我们将给出匿名通信系统中不可观测 
性的准确定义，本文采用 Pfitzmann 等人在文献 [9] 
中给出的定义. 

定义 1 . 匿名性 （ anonymity ). 匿名性是指通信 
主体在一组匿名集合中不可识别的状态. 

如果攻击者能够从获取到的信息中关联到匿名 
集合中的某一个发送者，如该发送者发送消息的 IP 
地址，则认为该用户是可识别的. 

定义 2 . 不可检测性 （ undetectability ). 从攻击 
者的角度，攻击者不能够区分感兴趣的通信客体 
(item of interest ) 是否存在. 

因此，匿名性是研究通信主体的通信关系，保护 
的是通信主体的身份信息，而不可检测性研究对象为 
感兴趣的通信客体，保护的是通信行为和通信客体. 

定义 3. 完美不可检测性 (perfect undetectability ). 
当感兴趣的通信客体存在与否是完全不可区分的， 
则认为该通信客体具有完美不可检测性. 

定义 4 . 不可观测性 （ unobservability ). 不可观 
测性是指感兴趣的通信客体在任何其他相同类型的 
通信客体集合中不可区分的状态，不可观测性包括 
2个方面的含义 ：通信 主体的匿名性和通信客体的 
不可检测性. 



Fig. 1 Network graph for anonymous communications. 
图 1 匿名通信网络图 
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本文关注匿名通信系统不观测属性的度量和评 
估.在此，我们仅考虑发送者不可观测性，即对于一 
个特别的消息，攻击者想在发送者匿名集中找出通 
信过程中该消息是否出现、来自于哪个发送者.在此 
发送者定义为所有可能的用户集合. 

本文定义的不可观测程度是基于某一特定消息 
出现的概率，即攻击者监视匿名通信系统一段时间 
后，攻击者给每一个通信主体在通信过程中出现的 
消息的外显行为特征赋予一个概率值，用以表征该 
消息可能出现程度. 

3系统建模 

匿名通信系统建模 ：定义 匿名通信系统为一个 
有向图 G =〈 V ，£〉. 其中， V 为匿名通信系统的节 
点，如客户端、服务端、中继节点为路由路径. 

定义£为匿名通信系统的路由路径的集合，记 
为 E = Path ( G ). 

V 为 G 上的顶点集合，并定义 V 为一个概率多 
项式程序，建模为一个五元组 V =( S , I ,0, f , g ), 
其中： 

S 为客户端、服务器或者中继节点的状态集合， 
任何一个客户端、服务器或者路由节点都处于》= 
| S | 个状态中的一个，记为 5 GS ； 

I 是客户端、服务器或者路由节点可能的输人 
集合，客户端、服务器或者路由节点的下一个状态通 
过输人和状态转移函数/共同 确定； 

0为每一个状态的可能的输出集合，我们可以将 
这个输出叫作数据包序列，记为0= 

其中 N 代表包的个数， M 代表每个包上可以观测到 
的外显行为特征数量，则&，为第》个包上的第 Z 维 
特征值； 

/为状态转移 函数: /: SXJ — S ; 

g 为输出函数 o . 

3.1 威胁模型 

系统的可观测程度依赖于敌手的攻击能力、拥 
有的资源以及通信协议本身的外显行为特征的可观 
测性.本论文将敌手建模为一个被动、局部的 敌手： 
即敌手能够在网络边界监视用户的流量，从而观测 
通信协议的外显行为特征（如包的大小、包的内部时 
间间隔等），但是不能够篡改、注人、丢弃数据包.此 
外，我们也假设敌手只能够在网络边界部署流量分 
析设备，而不能够控制用户的计算机，该敌手具有有 
限的计算和存储资源，而不能够在大规模骨干网络 


环境下完成复杂的计算.本节我们将从攻击能力、可 
见性、敌手拥有的计算资源这3个方面定义敌手的 
攻击 能力： 

1) 攻击能力 

① 被动攻击.敌手能够在网络边界部署流分析 
系统，以监视、分析网络流以及通信主体的通信行为. 

② 主动攻击.敌手能够操纵网络流（如加时延、 
丢包、修改包内容、注人攻击等）. 

③ Proactive 攻击.敌手能够模拟通信系统的客 
户端发包，以主动探测网络状态、节点行为特征等. 

2) 可见性 

① 局部可见.敌手仅仅能够监视网络边界（进 
人和离开某一网络)或者部分网络节点. 

② 全局可见.敌手能够监视整个通信网络节点 
以及网络流量. 

3) 资源 

① 有限.敌手具有有限的计算和存储资源. 

② 充分.敌手具有充分的计算和存储资源，即 
能够从不同的网络位置同时收集捕获到的大规模网 
络流量进行存储和处理. 

本文假设真实世界的敌手为局部、被动、具有有 
限的计算和存储资源的敌手. 

4 度量方法 

4.1 相对熵 （relative entropy ) 

在信息论中，信息熵定义为离散随机事件出现 
的概率，通常用信息熵来度量信息不确定程度.假设 
离散随机变量 X ，它有 N 个可能的取值， BI ] xe 
{ Xi ， ： C 2 , …， I N }， 各个取值发生的概率分别为 p ,= 
Pr(X = x 上 Xi 为离散随机变量 X 的取值.则离散 
随机变量 X 的熵定义为 

N 

H ( X ) =- ^ p ,\ b ( p ,). (1) 

i = l 

相对熵又称为 KL 散度 （ Kull - back-Leibler 
divergence , KLD ) ，是2个概率分布 P 和 Q 差别的 
非对称性的度量，典型情况下， P 表示数据的真实分 
布， Q 表示数据的理论分布、模型分布或 P 的近似 
分布.假设 >( x ) 和 g ( x ) 是随机变量 X 的2种概率 
密度函数，则两者之间的相对熵定义为 

D \_ p { x ) ^ ( x)ln 户 d ， (2) 

xex qyx ) 

当且仅当 p ( x ) = q ( x ) , D [/?( x ) , g ( x )] = 0. 
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4.2 不可观测程度度量方法 

根据第 3 节的定义，如果匿名通信协议 7 T 为目 
标协议 r 的一个具体实现，对于给定的集合0 = 
，则每一种通信协议可以建模为数据 
包在外显行为特征上的概率分布.假设久为匿名通 
信系统在第 Z 维特征向量 O , 上的概率分布，同样 
地，九为目标协议在 O , 上的概率分布，其中0为攻 
击者攻击后所观测到的数据包的外显行为特征集 
合，则匿名通信协议 7 T 和目标协议 r 在状态 s 下的 
相对熵定义为 

D. t [p K ,qJ = 2 I s)ln pn( '°'- I , 

g r (o„., I s) 

(3) 

其中 ^ 为匿名通信节点的状态，如匿名通信节点处 
于握手状态、空闲状态等. 

因此，基于相对熵，我们可以度量匿名通信系统 
的通信行为跟所伪装的协议在统计上的不可观测程 
度，当攻击者看到匿名通信协议在0上的外显行为 
特征的概率分布和目标协议在0上的概率分布完 
全一致时，他们之间的相对熵最小，即匿名通信协议 
的不可观测程度最小. 

定义 5. 假设 S 为匿名通信系统节点的状态集 

合，定义6为匿名通信系统的相对熵，记为 
- 1 丨 s I 

D = jgjS ( — D s lp T ,q T ^\). (4) 

定义 6. 匿名通信系统的最大相对熵定义为 

D m = max(D,[^), ,g r ]). (5) 

s6S 

定义 7. 匿名通信系统不可观测程度定义为 


因此，匿名通信系统的不可观测程度可以量化 
度量匿名通信系统在通信行为上跟其他协议的可区 
分程度的取值范围为[0，1]，如果 d 越小则表明 
协议的不可观测属性越好，当 d = 0 时表明协议完 
全不可区分. 

5度量 TOR 传输层插件的不可观测程度 

TOR 为当今世界上使用最为广泛的低时延匿 
名通信系统，当前， TOR 匿名通信系统大约有6 000 
多个路由节点、4 000个非公开的网桥节点，每天同 
时在线用户大约有200多万 [19 3，然而 TOR 协议本 
身并不具有很强的不可观测性，因此很难抵御流量 


分析攻击.东南大学何高峰等人在文献 [20] 中提出 
基于 TLS 指纹的识别方法和基于报文长度分布的 
TOR 匿名通信系统流量识别方法，可以有效识别出 
TOR 的流量.为了抵御流分析攻击，国内外的研究 
者先后提出了各种协议伪装方法， TOR 项目组也先 
后开发了各种传输层插件以增强协议的不可观测 
性.本文以 TOR 的桥接方式以及最近发布的 Meek 
插件为例，给出其不可观测程度. 

5.1 网桥机制介绍 

为了抵御网络审查和流分析攻击， TOR 提出了 
非公开的网桥 （ bndge ) 机制，获取网桥节点只能通 
过 Gmail 邮箱向 TOR 的邮件服务器申请或者到 
TOR 官方网站上去获取 （ https :// bridges , torproject . 
org ). 为了抵御枚举攻击， TOR 限制每个邮箱地址 
在一定的时间间隔内只能获得一定数量的网桥节 
点.对于网页方式， TOR 同样限制每个 IP 地址在一 
定的时间间隔内只能获得一定数量的网桥节点.此 
外，为了抵御流分析攻击， TOR 的网桥通信协议模 
仿了 Firefox 浏览器的 TLS 握手过程以混淆其流量 
特征. 

5.2 Meek 机制介绍 

Meek 为 TOR 项目组最近发布的一个传输层 
插件，其目标是将 TOR 流量伪装成访问云平台的 
流量.当 TOR 的数据流量到达云计算平台之后，会 
经过 TOR 的 Meek - Server 转发到 TOR 匿名网络， 
最终转向真正的目标地址.跟以前其他传输层插件 
不同的是它不是模仿某一协议，而是直接运行 
Firefox 目标协议.即将 TOR 的流量封装到 Firefox 
的 HTTPS 载荷中，而 HTTPS 协议头则为 Firefox 
跟云平台通信的协议头，在到达云平台的服务器后， 
再解析出 HTTPS 内容，并经 Meek - Server 转发给 
TOR 匿名网络.因此 Meek 传输层插件具有以下2 
个方面的 优点： 

1) 隐蔽性强 . Meek 传输层插件不是伪装而是 
直接运行目标协议，因此其协议特征跟目标协议特 
征具有很强的相似性. 

2) 不需要像网桥机制那样需要直接发布接人 
点地址，而是利用云平台的前端域名机制，让用户请 
求云平台的域名，然后解析得到其 IP 地址，其过程 
跟用户访问 Google 的搜索服务以及访问 Amazon , 
Microsoft 云平台的过程完全一致. 

5.3 实验方法 

为了度量 TOR 匿名通信系统传输层插件的不 
可观测程度，我们在 TOR 官方网站分别下载了 
Windows 平台和 Linux 平台的最新版本 TOR 客户 
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端软件 （ torbrowser - install -4. 5. 1 zh-CN) ，其内置 
的 Firefox 版本为 Firefox ESR 31. 7. 0版本. 

由于 Meek 和网桥方式都是伪装 HTTPS 协 
议，因此，本实验的方法是分别抓取 TOR 的 Meek - 
Azure 模式和网桥模式下访问某个 Web 站点的流 
量，然后用 Firefox 流览器直接访问相同的网址，并 
且在每一■种模式下分别在 Windows 7和 Ubuntu 下 
在重复采集3次流量，每一种模式采集的流量都包括 
HTTPS 协议握手阶段、空闲阶段（等待大约3 min ), 
用户输人数据阶段（都访问相同的网址）.此外，为了 
计算 Meek 和网桥的协议与其伪装的 Firefox (版本 
为 Firefox ESR 31. 7. 0) 的 HTTPS 协议的不可观 
测程度，本次实验同样采集了用户直接用 Firefox 
浏览器访问 Meek - A 皿 e 平台的网址.采集的流量同 
样包括 HTTPS 协议握手阶段、空闲阶段（等待大约 
3 min ) ，用户输人数据阶段(访问相同的 Web 站点). 

为了度量 TOR 传输层插件的不可观测程度，我 
们选择了包的大小分布和数据包的内部到达时间间 
隔作为网络通信行为可观测性的外显行为特征.为 
了直观地了解本文选择的特征是否具有可区分性， 
首先，我们分别计算了它们在不同平台下 （ Windows, 
Ubuntu) 客户端到服务器端 （ C2S) 和服务器端到客 
户端 （ S2C) 的累积分布函 数 （CDF ) ，以及用 Firefox 
直接访问 HTTPS 站点 （ Azure 云 平台）的 CDF 值， 
如图 2 和图 3 所示; 然后，我们根据本文 4. 2 节提出 
的方法分别计算在不同平台和状态下的相对熵，如 
表 1 和表 2 所示； 最 后根据 4. 2 节提出的匿名通信 
系统不可观测程度计算公式分别给出 TOR 的 
Meek 模式、 Bridge 模式的不可观测程度的度量值. 
为了展示效果更加直观，我们对数据作了预处理，过 
滤了所有 TCP 三次握手的数据包.对于包的内部时 
间间隔我们精确到 10ms 级，此外对于 _PU)=0 的 
情况，我们做了技术上的处理，即将它赋予一个很小 
的值，在本文将此情况赋予一亿分之一的概率值. 
5.4 实验结果与分析 

本节我们将讨论实验结果，并对实验结果进行 
相应的分析. 

图2给出了 Meek ， Bridge ， HTTPS(Firefox 的 
H T T P S ) 直连的数据包的内部时间间隔分布.从图 
2我们看出 Meek ， Bridge , HTTPS 有大约70%〜 
80%的数据包内部时间间隔分布几乎没有什么差 
别，但是 Meek 的数据包在 0. 5~2 s 附近有一个明 
显的抖动，而 HTTPS 则有大约20%的数据包的内 
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Fig. 2 Packet interval distribution. 

图 2 数据包的内部时间间隔分布 

部时间间隔在 10 s 附近，经过人工分析 TOR 的源 
码发现 Meek 的客户端跟云平台之间为了保持长连 
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Fig. 3 Packet size distribution. 

图 3 数据包大小分布 

接，在连接空闲状态时会自动发送一个心跳包，心跳 
包的时间间隔为 0. 1〜 5 s 之间的一个随机值，而用 
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Firefox 直接访问 Azure 云平台的时候，如果没有数 
据，也会发送一个心跳包，心跳包的时间间隔为 10 s . 

图 3 为 Meek, Bridge, HTTPS ( Firefox 的 
HTTPS) 的数据包的大小分布图，由图 3 我们可以 
看到如下2个明显的 现象： 

1) 现象 1. Bridge 模式下客户端到服务器端的 
数据包大小在600 B 附近比较集中.经过分析后发 
现， TOR 数据包 （ cell ) 为一个固定大小值，其在 
Windows 平台下为597 B , Ubuntu 平台下为609 B _ 

2) 现象 2. Meek 模式下客户端到服务器端数 
据包大小为200 B 左右、服务器到客户端数据包大 
小为400 B 左右占比很高，对 TOR 的 Meek 源码分 
析后发现为 TOR 的 Meek 模式心跳包大小，不同的 
平台下心跳包的大小稍微有些不同，同一平台则没 
有区别. 


Table 1 Relative Entropy for Packet Interval Distribution 


表 1 包内部时间间隔分布的相对熵 nat 


Pattern 

OS - 

Handshake 

Idle 

Data Transmission 

C2S 

S2C 

C2S 

S2C 

C2S 

S2C 


Windows 

3. 56 

1. 20 

18. 27 

18. 14 

10. 35 

5. 19 

Meek 


Ubuntu 

2. 78 

1. 63 

18. 94 

18. 02 

4. 29 

3. 17 


Windows 18. 15 

18. 47 

21. 82 

21. 82 

15. 64 

19. 20 

Bridge 


Ubuntu 

13. 07 

13. 14 

21. 85 

21. 82 

14. 59 

13. 76 


Windows 

1. 67 

2. 05 

2. 56 

4. 64 

1. 96 

0. 77 

HTTPS 


Ubuntu 

3. 57 

2. 05 

17. 03 

16. 86 

1. 51 

1. 54 


Table 2 Relative Entropy for Packet Size Distribution 
表 2 包大小分布的相对熵 nat 


Pattern 

Handshake 

Idle 

Data Transmission 

C2S 

S2C 

C2S 

S2C 

C2S 

S2C 


Windows 17. 57 

4. 76 

20. 91 

20. 20 

19. 89 

10. 86 

Meek 


Ubuntu 18. 14 

5. 48 

10. 25 

15. 01 

18. 48 

5. 72 


Windows 18. 00 

0. 77 

21. 92 

21. 92 

20. 19 

4. 88 

Bridge 


Ubuntu 18. 69 

0. 73 

21. 95 

21. 92 

18. 44 

4. 30 


Windows 0 

0 

0 

0 

0 

0. 77 

HTTPS 


Ubuntu 0 

0 

0 

0 

0 

1. 45 


由图 2 和图 3 可以直观地看出， TOR 的传输层 
插件 （ Bridge, Meek) 在统计上跟所伪装的协议 
(HTTPS) 仍然具有较为明显的差异.下面将分别计 
算 TOR 的 Meek 模式、 Bridge 模式跟 HTTPS 协议 
在不同的状态下，包的内部时间间隔分布和包的大 
小分布的相对熵值以及 HTTPS 跟自己相比较（在 
同一平台、不同时间下抓取的数据包）的相对熵值， 
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如计算握手状态下客户端到服务器端包的大小分布 
和包的内部时间间隔的相对熵. 

表1和表2的结果表明，相对熵能够很好地刻 
画目标协议与掩体协议之间在统计上的相似 程度； 
包的大小分布相对于内部时间间隔能够更好地表征 
TOR 传输层插件的外显行为特征的可区分程度.本 
文中计算相对熵时，采用的是同一网络环境和操 
作系统、在同一状态下计算包的大小分布和内部时 
间间隔分布的相对熵值，因此不同计算结果具有可 
比性. 

因此根据式 （ 6 ) 即可以计算出 Meek 以及 
Bridge 传输层插件的不可观测程度.对于 Meek 插 
件其在 Windows 平台下的不可观测程度 d = 0. 54； 
在 Ubuntu 平台下的不可观测程度为 < i = 0. 36•对 
于 Bridge 插件，在 Windows 平台下的不可观测程 
度 d =0. 72;在 Ubuntu 平台下的不可观测程度为 
d = 0. 53. 从上面的值可以看出， Meek 传输层插件 
无论是在 Windows 平台还是在 Ubuntu 平台下，其 
通信行为上的不可观测程度都好于 Bridge 模式，即 
在统计上更难区分 Meek 模式的 流量； 但是其跟 
HTTPS 的流量相比较，还是具有较强的流量特征， 
即很容易从 HTTPS 流量中筛选出 TOR 的 Bridge 
流量和 Meek 模式的流量. 

6 结论和未来工作 

本文形式化地定义了匿名通信系统的通信模 
型，并在此模型的基础之上提出一种基于相对熵的 
匿名通信系统不可观测性度量方法.该方法能够有 
效地度量匿名通信系统的不可观测程度，并将该方 
法应用于 TOR 的传输层插件的不可观测性度量， 
本方法同样适用于其他匿名通信系统不可观测性的 
度量.尽管国内外学者和 TOR 项目组一直致力于 
改进 TOR 通信行为的安全性，但是本文从理论分 
析和实验结果都表明， TOR 的传输层插件还没有实 
现 TOR 官方所声称的不可观测性.目前本论文提 
出的匿名通信系统的不可观测属性的度量分析只考 
虑在某一静态时间点通过信息熵的度量方法来评估 
匿名通信系统的不可观测属性.信息熵对于匿名网 
络本身的安全评估提供了很好的分析方法，但对任 
意给定用户，通常需要准确评估其多长时间以多大 
的概率可以有效识别匿名通信系统的协议，从而进 
一步破解其匿名性，而这些工作对于度量和评估匿 
名通信系统都具有十分重要的意义. 
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Abstract 

China’s Great Firewall passively inspects network 
traffic and disrupts unwanted communication by inject¬ 
ing forged DNS replies or TCP resets. We attempted to 
comprehensively examine the structure of the DNS in¬ 
jector, using queries from both within and outside China. 
Using these probes, we were able to localize the DNS 
monitors’ locations, extract the firewall’s DNS black¬ 
list of approximately 15,000 keywords, and estimate the 
cluster structure and active response rate by utilizing an 
information leakage in the Great Firewall’s design. 

1 Introduction 

China’s Great Firewall (GFW) passively inspects net¬ 
work traffic and disrupts unwanted communication by 
injecting forged DNS replies or TCP RSTs [1, 14, 15, 
2, 6, 9, 11,4, 13]. While numerous facets of the GFW’s 
operation have seen prior study, the nature of its DNS 
censorship has not been previously examined in a com¬ 
prehensive fashion. 

In this work we undertake a range of systematic mea¬ 
surements to illuminate the workings of the GFW’s DNS 
censorship. Our study employs DNS queries sent from 
both within and outside China to serve as probes to nom¬ 
inally nonresponsive addresses as well as DNS servers 
under our control. We in addition employ TTL-limited 
queries to determine topological information associated 
with the GFW’s packet injectors. Finally, by leveraging 
the GFW’s deterministic generation of IP TTL and IP ID 
fields for injected packets, we deduce relationships be¬ 
tween individual GFW components. 

In total our measurements cover all of the /24 subnets 
within China, as well as likely the strong majority of all 
domain names/keywords that China censors. We assess 
where in the network censorship occurs, which network 
regions operate free of censorship and how, which names 
the censor has decided to block and the patterns used to 
locate those names, how the blocklist evolves over time, 
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Figure 1: The architecture of GFW as deduced from our 
study. 


the censor’s use of load balancing and centralized man¬ 
agement (per Figure 1), and estimate the volume of cen¬ 
sored DNS queries. We amass strong evidence that the 
GFW performs DNS-based censorship essentially only at 
China’s borders, using a blocklist of around 15,000 key¬ 
words. Individual GFW nodes appear to operate in clus¬ 
ters of several hundred processes that collectively inject 
censored responses at a rate of about 2,800 per second. 
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Figure 2: Percentage of DNS open resolvers inside China 
polluted by GFW measured over two weeks in 2014. 

method [8] to trigger DNS queries indirectly by issuing 
requests to open resolvers for domain names under our 
control. 

Accuracy Issues. The above methods generally work 
free of false positive: that is, because they base their op¬ 
eration on the use of either servers or domains that do 
not exist, or for which we know the correct response, 
any blocking-related answer clearly indicates action on 
the part of the GFW. However, a number of issues can 
cause false negatives, where we fail to receive a poi¬ 
soned answer even though the query indeed matched one 
prohibited by the GFW. This can occur due to packet 
loss, rate-limiting, or overload of injectors. During our 
study we observed clear, non-negligible (roughly 0.5- 
2%) false negative rates, which could lead to confusing 
or misleading indications. We addressed this issue by 
repeating our tests to confirm previous results as much 
as possible within our resource constraints, and take this 
issue into consideration when formulating estimates and 
inferences. We also note the importance of the research 
community bearing this complication in mind when con¬ 
ducting similar experiments. 

4 DNS Injection Effectiveness 

We probed open DNS resolvers inside China to eval¬ 
uate the effectiveness of the GFW. We located the re¬ 
solvers by probing UDP port 53 for the entire IPv4 ad¬ 
dress space and then selecting those that we found con¬ 
sistently reachable, and that MaxMind’s Geo-IP database 
located as in China, totaling about 150K. We then probed 
these resolvers every hour by querying them from within 
China for 3 blocked domains and 1 benign and popular 
domain (www. qq. com). In those (rare) cases that the be¬ 
nign name’s query failed, we discarded the probes, as this 
indicated connectivity issues. 

For our probes, if any of the other 3 domains elicited 
a “Bad IP” A record response then we treat the resolver 
as polluted. (Here, “Bad-IP” corresponds to any of the 
174 IP addresses we found returned by GFW DNS in¬ 
jection in the experiments discussed below in Section 6.) 


2 Background and Related Work 

The Great Firewall operates in an on-path fashion: it 
passively examines passing traffic, but can only suppress 
communication by injecting additional packets. Injecting 
TCP RSTs can block individual connections, while fake 
DNS A record responses serve to block access by domain 
name; our study focuses on the second of these. We note 
that such injection works even when users employ third- 
party DNS resolvers outside the country, since the GFW 
will still react to the queries sent to those resolvers. 

Reports of the GFW injecting DNS responses date to 
2002 [7]. What began as a single poisoned response for 
all blocked domains evolved by 2007 into a level of key¬ 
word filtering (e.g., responding to “f alungong” appear¬ 
ing anywhere in a domain name) and the use of at least 
8 distinct addresses in injected replies [11]. WestCham- 
ber research developed fingerprints identifying injected 
DNS responses based on fields such as the IP ID, IP TTL 
and DNS TTL [2, 1]. They also confirmed the use of 
8 “Bad IP” address, which enabled them to distinguish 
between injected packets and legitimate replies. 

Previous work has demonstrated that the GFW does 
not distinguish traffic directionality [5], presumably to 
simplify configuration. This behavior results in collateral 
damage, where DNS resolvers outside of China, when 
contacting authoritative servers located in or at the end 
of paths that transit China, incur Chinese censorship on 
non-Chinese requests [4] • 

Two organizations monitor Chinese censorship of 
domains on an ongoing basis, greatfire.org has 
tested for blocking since 2011, reporting as of this 
writing 2,582 of their 22,525 monitored domains as 
blocked, hikinggfw.org began GFW monitoring in 
2012, finding 1,638 domains in the Alexa Top 1 Million 
(Alexa 1M) blocked as of Feb 13th, 2014. 

Previous studies have also looked at localizing GFW 
nodes [6,15,4], concluding that GFW nodes operate not 
only at the edge of China’s Internet but also within its 
domestic networks, based on observations of packet in¬ 
jection occurring in non-border Chinese ASes. However, 
articles from the Chinese Internet community state that 
GFW deploys injecting nodes only at Internet exchange 
points focusing on international communications [1]. 
Thus, the issue of localization remains unclear. 

3 Methodology 

We extensively probed the GFW using techniques de¬ 
veloped in previous measurements of GFW DNS in¬ 
jection [4]: either querying nominally unresponsive ad¬ 
dresses with known censored domains, or issuing queries 
for non-existent domains that contain known censored 
keywords. When needed, we also manipulate the IP TTL 
to perform traceroute-like experiments, and use the King 
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Otherwise, we term the resolver clean. We conducted 
this testing for 2 weeks, and per Figure 2 found that the 
GFW operates very effectively and comprehensively in 
terms of DNS pollution. Note that the high polluted per¬ 
centage (< 0.1% clean rate) in Figure 2 does not conflict 
with the overall false negative rates (0.5-2%), because 
a resolver returns a clean response only when both its 
cache and all corresponding iterative rounds avoid pollu¬ 
tion. 

We noticed, however, that some open resolvers contin¬ 
uously provide correct answers for the blocked domains. 
By issuing queries to these resolvers for domains under 
our control, we determined that of the 78 such clean re¬ 
solvers, 38 forward their queries to Google’s public DNS 
and 4 forward to OpenDNS. 

The others keep clean by dropping answers with “Bad 
IP” A records, which we confirmed by returning such 
records from our controlled domain (without any blocked 
keyword) and observing that the open resolver would 
not forward the reply back. Finally, one clean resolver, 
located in an Internet exchange point, does not show 
any apparent signs of attempting to evade DNS censor¬ 
ship. It instead appears that the resolver operates outside 
the range of GFW censorship; or the GFW employs a 
whitelist to ignore queries from certain resolvers. 

5 Location of DNS Injectors 

Previous studies indicated that DNS and TCP RST injec¬ 
tion occurred not just near China’s border but also within 
its domestic networks [6, 15, 3]. The Chinese online 
community, however, mostly believes that deployment 
occurs only at the edge [1]. We aim to clarify this is¬ 
sue with large-scale DNS probing from both internal and 
external vantage points. 

Experiments. To identify the router interfaces mon¬ 
itored by the GFW nodes—the “injecting interfaces ’’一 
we first selected an unresponsive IP address from each 
/24 subnets in China. We then performed TTL-limited 
(traceroute-like) probes to these addresses from both an 
external server and from two servers in different Chinese 
ISPs. Only probes which pass a monitor point will trig¬ 
ger a response. 

In addition, we identified 207 DNS open resolvers in 
34 Chinese ASes: these enabled us to utilize the King 
method to indirectly scan the paths between these re¬ 
solvers, as follows. To scan the path between A and B, 
we first send a non-censored query to A for a domain we 
control. The authority for this domain directs A to next 
query B. As long as the record pointing to B remains 
cached at A for a short time (which we confirmed), we 
can use the cached entry to probe the path between A and 
B by querying A for a name that we prepend to a name 
that the GFW blocks (a 尸 2-type pattern per Section 6). 


AS No. 

Interface # 

/24 Subnet # 

4134 

4,169 

569,978 

4837 

596 

276,286 

9808 

95 

76,132 

4538 

17 

46,984 

9394 

788 

8,393 

4812 

931 

4,241 

7497 

4 

3,543 

9929 

5 

2,173 

4847 

185 

1,906 

Others (7 ASes) 

303 

1,011 

Unknown 

6 

59 

Unknown (no ICMP at injecting hop) 

11,526 

No GFW packets observed 

257,698 


Table 1: ASes associated with DNS injecting interfaces, 
as seen by TTL-limited scans from outside China. A total 
of 1,259,930 /24s observed 7,099 distinct interfaces. 


Results. Table 1 summarizes the results for probes 
from outside China. About 1 million (« 80%) of the 
paths scanned exhibit GFW pollution, among which we 
identified 7,099 injecting interfaces belonging to 16 bor¬ 
der ASes of China (using the classification in [15]). In 
most cases, the injecting interface manifested at either 
2 (18.3%) or 3 (54.6%) hops inside China. 

It is important to note that our results may overesti¬ 
mate the GFW injector locations due to the problem of 
false negatives, as mentioned in Section 3. In our exper¬ 
iment, intermittent responses will lead to a false conclu¬ 
sion that the GFW monitoring occurs deeper within the 
Chinese Internet than it actually does, leading to false ad¬ 
ditions. To reduce this effect we repeated each probe five 
times. 

We see from Table 1 that even with potential false ad¬ 
ditions, very few ASes deploy DNS injectors. In fact, of 
7,099 detected injecting interfaces, only about 270 ap¬ 
peared in probes covering 100 or more /24s. Thus we 
suspect the strong majority of the 7K interfaces reflect 
false additions, and the actual total lies in the range of a 
few hundred. 

We also to our surprise find that 20% of /24s did not 
elicit any GFW responses. This may reflect geolocaliza¬ 
tion errors in associating those subnets with China. 

In sharp contrast to our external probing, when con¬ 
ducting our probes from two ISPs in China we rarely 
observe DNS injection (on only about 16% of the paths 
probed from one ISP and 4% from the other). Examining 
the paths that did experience injection in most cases re¬ 
veals that the responsible interface reflects a path that ei¬ 
ther traversed links previously observed as hosting GFW 
injectors, or within the same /24 subnet as such injec¬ 
tors. When employing the King method for 207 open re¬ 
solvers covering 42,849 domestic routing paths, we find 
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by about 10% over our eight months of monitoring. Fig¬ 
ure 3b presents the daily progression of the censor adding 
and dropping names. Some of the deletions however may 
reflect false negatives. Thus, Figure 3a more accurately 
captures the overall trend. 

The more volatile nature of Figure 3b naturally raises 
concern about measurement noise. We manually verified 
several cases, such as the peak on August 30th, which oc¬ 
curred when a group of porn sites became blocked. The 
dynamics convey that the GFW censors actively uncover 
and censor new unwanted domain names, but do not par¬ 
ticularly attend to unblocking. Indeed, to our surprise we 
found that more than two-thirds of the censored domains 
had expired registrations (these are primarily from the 
zone-file probing we conducted, as discussed next). 

In addition, we probed the full domain set (all 130M 
names) in April 2014 to detect blocked names. For these 
blocked names we used binary search to extract the ac¬ 
tual keyword that triggers injection. For each keyword 
we then determined where it must appear by testing in¬ 
stances where we added random prefixes and suffixes. 
We find that some keywords must appear only as a suf¬ 
fix, while others match anywhere in a request. 

This testing discovered 35,332 blocked domain 
names, from which we extracted 14,495 associated key¬ 
words. Due to the breadth of our seed list, we believe it 
likely that these measurements cover a large portion of 
the GFW’s entire DNS policy. Table 2a gives the 10 key¬ 
words that caused most blocked domain names. 

Our probing uncovered several distinct matching pat¬ 
terns (Table 2b). We suspect these variations reflect a 
legacy of long-term, non-deliberative management, in¬ 
cluding inconsistent use of name separators (’•’）in rule 
creation and optionally including an ending wildcard 
in a rule. Previous studies highlight the GFW target¬ 
ing any domain name that contains a keyword [11, 4] • 
Since then, the matches appear to have grown more 
precise, with the bulk of the rules now requiring that 
the request end in an exact match. Such rules can 
still cause significant overblocking (such as blocking of 
purefacebook.com). 

We also performed the keyword tests for two destina¬ 
tions (i.e., two different routing paths and consequently 
two separate GFW nodes) to verify the results. After 
employing repeated tests, we obtained equivalent results, 
suggesting that at least those two GFW locations have a 
synchronized policy. 

Finally, we note that our long term monitoring did not 
observe evidence of the Jan. 21 2014 DNS poisoning 
event [10], which some believe arose due to a miscon- 
figuration in blocking rules [12]. 
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Figure 3 : Observing GFW policy changes by monitoring 
Alexa 1M domains from Aug. 2013 to Apr. 2014. 

only 18 paths (0.04%) exhibited pollution. 

These results highlight that the GFW appears to de¬ 
ploy DNS injection nodes only at the edge of China’s 
Internet, generally within a few hops of an international 
transit point. Such deployment can still lead to a small 
degree of domestic traffic experiencing GFW censorship 
due to routing policies that generate boomerang routes. 

6 The GFW，s DNS Injection Policy 

We now turn to discovering the rule set the GFW uses to 
govern when to inject DNS replies (which domains, or 
more precisely which rules, its policy list contains), and 
assessing how the management of this rule set evolves 
over time. 

To do so, we issued DNS queries towards non-existent 
addresses to trigger GFW responses. These queries in¬ 
cluded both all domains present on the Alexa 1M list 
(obtained in August 2013) and those in the zone files 
for . com, .net, . org, and . info (obtained in 2011). 
We also added www. to any names that did not al¬ 
ready have that as a prefix, since we observed that the 
GFW sometimes blocks only these refinements (e.g., 
www. nytimes. com vs. nytimes. com). In total, we 
queried about 130 million names. 

We first conducted long-term daily monitoring on the 
Alexa 1M site list from August 1 2013 to April 12 2014, 
to detect changes in blocking patterns. As shown in Fig¬ 
ure 3a, the number of censored domain names increased 
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Figure 4: IP TTL and ID seen in DNS packets generated 
by two separate processes within the same GFW node. 
The third pair of lines for ID are nearly identical. 

7 Internal Structure of GFW Nodes 

We probed the structure of an individual GFW node by 
analyzing side-channels present in the packets it injects. 
Previous studies found patterns in the IP ID and IP TTL 
fields of TCP RSTs injected by GFW [1,2], and we dis¬ 
covered similar deterministic patterns in injected DNS 
packets. 1 

From outside of China, we selected one /24 China sub¬ 
net to which we issued a series of sensitive DNS queries. 
In most cases, these elicited two injected responses: one 
with a fixed IP ID (28944) and initial IP TTL (likely 64), 
and the other manifesting clear patterns in how its IP ID 
and IP TTL fields varied. For the latter, the TTLs se¬ 
quentially increased while the IDs appear generated by 
a quadratic function (Figure 4). After several rounds of 
probes, we identified lower and upper bounds for the lat¬ 
ter injected responses of a TTL between 48 and 247. 

Mapping Interfaces to Nodes. Our probes often en¬ 
countered routers employing load-balancing strategies: 

1 We have altered minor details in our discussion to defend against 
the censor identifying us or those who assisted our measurements. 


probes to different destinations within the same /24, or 
merely to the same destination but with different ports, 
could result in different paths and consequently differ¬ 
ent injecting interfaces. We probed all addresses of a 
selected subnet and some of its sibling /24 subnets with 
the same AS-level path. In total we identified 4 distinct 
injecting interfaces. The routing load-balancing strategy 
of the tested network was consistent during our experi¬ 
ments. 

The TTL side-channel enabled us to isolate individual 
GFW processes. We identified pairs of addresses sharing 
the TTL counter, indicating that the same process han¬ 
dled both censorship requests. On this basis, we deter¬ 
mined that the same GFW node actively monitored mul¬ 
tiple interfaces. 

We first divided all probed addresses into 4 groups 
according the injecting interfaces. We then selected a 
pair of addresses from two different groups, issuing DNS 
queries to each in turn. If all TTLs and IDs in the injected 
responses followed the same patterns, we concluded that 
a single GFW node monitored both interfaces, and that 
the monitoring for those individual addresses happened 
within the same process. 

Figure 5 shows a typical case of a correlated pair. The 
IP TTLs for the two addresses increase in tandem, form¬ 
ing a consistent pattern. The IP IDs for the two addresses 
stay within the same band, but they appear to use a dif¬ 
ferent function to determine the location within the band. 
Using this technique we found correlations between all 
four interfaces, suggesting that a single GFW node mon¬ 
itors all of the interfaces. 

Load Balancing and Volume. Figure 4 also suggests 
that the GFW load-balances between processes based on 
IP address, as the two different destination addresses ex¬ 
hibited different TTL and ID counters. We attempted to 
determine the fields used for load balancing, the algo¬ 
rithm, and an estimate of the number of processes behind 
the load balancer. 



Keyword 

Pattern No. 

Domain # 

facebook.com 

PI 

8,933 

twitter.com 

PI 

4,702 

youtube.com 

PI 

2,907 

was.info 

P2 

509 

33a.com 

PI 

383 

88sf.com 

PI 

242 

appspot.com 

P2 

239 

kproxy.com 

PI 

139 

mefans.com 

P2 

110 

sf888.com 

PI 

99 

Total 

35,332 


⑻ Top 10 keywords 


Pattern No. 

Tested Patterns 

# Entries 

kw 

{rnd}kw 

{rnd}.kw 

kw{rnd} 

kw.{rnd} 

PI 

/ 

/ 

/ 

X 

X 

10,461 

P2 

/ 

/ 

/ 

/ 

/ 

2,803 

P3 

/ 

X 

/ 

X 

X 

856 

P4 

/ 

X 

/ 

/ 

/ 

335 

P5 

X 

X 

/ 

X 

X 

38 

P6 

/ 

X 

X 

X 

/ 

1 

P7 

X 

X 

/ 

/ 

/ 

1 

Total 

14,495 


(b) Matching Patterns 


Table 2: Measured GFW DNS censorship policy. 
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(b) Injected packets by the censor node 

Figure 6: Estimated volume of censored traffic. 


around 2,800 pps, with a range from 1,100 to 4,000 pps 
over the course of a day. 

8 Summary 

We have attempted a detailed characterization of how the 
Great Firewall of China censors sites by injecting bo¬ 
gus DNS replies, based on a series of extensive measure¬ 
ments from both external and internal vantage points. 

We find that for the more than 1.2 million /24 subnets 
within China, the Great Firewall’s monitors view at most 
about 7,000 (and likely just a few hundred) associated 
network links, with all of these links belonging to bor¬ 
der ASes. Thus, contrary to previous studies, it appears 
that China deploys GFW DNS nodes only at the coun¬ 
try^ edge; for domestic traffic, it affects only the small 
portion that happens to transit through border ASes while 
remaining within the country. 

Based on testing of 4 TLDs and the Alexa 1M sites, 
we discovered 35,332 censored domains. From these 
we further extracted 14,495 keywords matched in 7 dif¬ 
ferent patterns, 2 of which predominate. We argue that 
this list covers the majority of the GFW’s block list. Ex¬ 
periments with two distinct GFW locations obtained the 


Dayl- Day2 - Day2 - Day2 - Day3- Day3- Day3- 
16:00 00:00 08:00 16:00 00:00 08:00 16:00 
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(a) Injected packets by each process 



Figure 5: The injected TTL and IP IDs from the same 
process monitoring two distinct network links. 

We tested source/destination IP, IP TTL, IP ID, source 
port, DNS ID, and query name, to assess whether the 
load balancer selected these fields by varying just a single 
field and conducting multiple tests. Only the source and 
destination IP appear to affect the load-balancing. 

We then probed the GFW node using different des¬ 
tinations and limited TTLs to determine if, for the same 
source, two destinations mapped to the same process. Al¬ 
though not enabling us to fully infer the load-balancing 
algorithm, patterns in the results suggest an implementa¬ 
tion based on bit shifting and modulo operations. 

Our analysis provided a mechanism to estimate the 
number of processes behind the load balancer. We 
probed the censor with 2,048 random destination ad¬ 
dresses and observed the resulting mapping of destina¬ 
tion addresses to processes. We repeated this experiment 
several times to minimize grouping errors, after which 
we discerned 367 separate monitoring IP ID/TTL pat¬ 
terns. Although our methodology may underestimate if 
we miss a process, it does appear to provide a reason¬ 
able estimate that this GFW node employs hundreds of 
distinct processes. 

Mapping out the processes then enables a “packet- 
pair” type measurement of censorship volume: by send¬ 
ing two packets to the same process on the same GFW 
node in a one-second interval, the resulting difference in 
IP TTL should reflect the number of censorship events 
occurring in that interval. (Here we assume that few 
processes would inject more than 200 pps, the dynamic 
range that we can observe in the TTL field). 

Based on 240 samples per hour from each of the 367 
processes, collected over two days, we computed the av¬ 
erage volume of censored traffic for each hour. Figure 6a 
shows the number of the injected packets for each of the 
367 processes, and Figure 6b shows the total. These find¬ 
ings suggest that although a few processes exhibit hot 
spots (yellow rows in Figure 6a), the load balancer gen¬ 
erally works well. We estimate the total number of cen¬ 
sorship events for the node as summing on average to 
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same blocklist, suggesting central management. 

From probing about 150K open DNS re¬ 
solvers/ forwarders inside China over a 2-week period, 
we found that more than 99.85% provided polluted 
answers. For the small number of “clean” resolvers, 
most forward their DNS queries to external public 
resolvers such as Google’s, presumably through an 
uncensored tunnel. A few instead drop any responses 
that contain a known GFW “Bad IP”，and one appears to 
operate in an uncensored Internet exchange point. 

Finally, by targeting one GFW node, we confirmed 
its use of source and destination addresses for load¬ 
balancing DNS analysis. Leveraging patterns in the 
IP ID and IP TTL fields of injected packets, we estimate 
that the single node employs about 360 distinct processes 
that collectively inject censored responses at an average 
rate of roughly 2,800 per second. 
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